鉴于AWS with EMR为您提供了优化的Spark体验,那么:
- 如果我计划只使用S3 / EMRFS直接阅读和直接写入,而 * 不 * 使用s3 DistCP,
- 为什么我需要至少一个核心节点?
我的怀疑是,至少需要1个核心节点来解决Spark shuffle文件的问题,因为在过去,当核心节点可以通过缩放释放时,yarn动态资源分配会丢失。
鉴于AWS with EMR为您提供了优化的Spark体验,那么:
我的怀疑是,至少需要1个核心节点来解决Spark shuffle文件的问题,因为在过去,当核心节点可以通过缩放释放时,yarn动态资源分配会丢失。
1条答案
按热度按时间ttp71kqs1#
AWS人员表示:
核心节点托管EMRFS/HDFS守护进程。因此,您至少需要1个核心节点才能使用EMRFS与S3通信。
我自己也得到了这个,但我怀疑至少需要1个核心节点来解决Spark shuffle文件的问题-由于Spark的Yarn动态资源分配-在过去核心节点可以通过扩展解除分配时丢失。核心节点在自动伸缩或初始分配后无法解除分配。
也就是说,我注意到,大约两年前,EMR Spark弹性已经有了很多:https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/