Apache Spark 带有仅用于S3/EMRFS处理的任务节点和1个核心节点的AWS EMR

aiazj4mn  于 2023-05-29  发布在  Apache
关注(0)|答案(1)|浏览(227)

鉴于AWS with EMR为您提供了优化的Spark体验,那么:

  • 如果我计划只使用S3 / EMRFS直接阅读和直接写入,而 * 不 * 使用s3 DistCP,
  • 为什么我需要至少一个核心节点?

我的怀疑是,至少需要1个核心节点来解决Spark shuffle文件的问题,因为在过去,当核心节点可以通过缩放释放时,yarn动态资源分配会丢失。

ttp71kqs

ttp71kqs1#

AWS人员表示:
核心节点托管EMRFS/HDFS守护进程。因此,您至少需要1个核心节点才能使用EMRFS与S3通信。
我自己也得到了这个,但我怀疑至少需要1个核心节点来解决Spark shuffle文件的问题-由于Spark的Yarn动态资源分配-在过去核心节点可以通过扩展解除分配时丢失。核心节点在自动伸缩或初始分配后无法解除分配。
也就是说,我注意到,大约两年前,EMR Spark弹性已经有了很多:https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/

相关问题