当使用hadoop集群来处理数据时,随着节点数的增加,并行度提高,处理时间缩短。假设我们从一个3节点的集群开始,如果我们添加一个节点,处理时间就会减少,这样我们就可以添加更多的节点。是否存在这样一种模式:当我们不断增加节点数时,处理时间会减少;当超过一定数量的节点时,处理时间会停止减少?我浏览了相关的线程,它根据计算节点的数量使用spark应用程序时间处理,并且提到添加更多节点会带来开销。为了在处理时间方面获得最佳性能,如何知道hadoop集群的最佳节点数?谢谢您。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!