如果我在m5.2xlarge的2个从属节点上运行spark,而在m5.4x large的1个从属节点上运行spark,性能会有差异吗?一方面,我会说这没有什么区别,因为它们最终都是相同的大小(在ram和cpu中)。另一方面,我想/可以说,在示例之间洗牌数据需要一些(毫秒?)时间,因此使用1个示例比使用大小一半的2个示例性能更好。
cnwbcb6i1#
在aws s3和azure blob存储时代,它是弹性计算,而不是裸机,从技术上讲,我在本例中看没有什么区别,除非1)考虑节点/工作进程故障,2)对于洗牌/中间阶段的作业,您至少有两倍的本地磁盘(您确实注意到了这一点)。这可以提供更多的见解。
1条答案
按热度按时间cnwbcb6i1#
在aws s3和azure blob存储时代,它是弹性计算,而不是裸机,从技术上讲,我在本例中看没有什么区别,除非1)考虑节点/工作进程故障,2)对于洗牌/中间阶段的作业,您至少有两倍的本地磁盘(您确实注意到了这一点)。
这可以提供更多的见解。