performance spark:2个m5.2xlarge节点与1个m5.4xlarge节点

pqwbnv8z  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(414)

如果我在m5.2xlarge的2个从属节点上运行spark,而在m5.4x large的1个从属节点上运行spark,性能会有差异吗?
一方面,我会说这没有什么区别,因为它们最终都是相同的大小(在ram和cpu中)。另一方面,我想/可以说,在示例之间洗牌数据需要一些(毫秒?)时间,因此使用1个示例比使用大小一半的2个示例性能更好。

cnwbcb6i

cnwbcb6i1#

在aws s3和azure blob存储时代,它是弹性计算,而不是裸机,从技术上讲,我在本例中看没有什么区别,除非1)考虑节点/工作进程故障,2)对于洗牌/中间阶段的作业,您至少有两倍的本地磁盘(您确实注意到了这一点)。
这可以提供更多的见解。

相关问题