hadoop集群:更大的节点还是更多的节点

pvcm50d1  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(350)

一个简单的问题:是让更多的节点分割资源更可取,还是让更少的“更强”节点更好?

bvuwiixz

bvuwiixz1#

这是一个可靠性、复制和一般性能的例子。
假设固定数量的磁盘、CPU和ram均匀分布在具有x_1节点的群集和具有x_2节点的群集上,其中x_1<x_2,则:
如果所有节点都保持正常运行,那么作业在x1上的运行速度会更快
如果节点在作业期间死亡,则x_2集群上的剩余资源可能会超过x_1集群的剩余资源。如果x_1只有1或2个节点,则更容易想象示例。在这种情况下,额外的净io的成本可能小于资源的损失,因此作业在xè2上运行得更快
如果您的复制因子明显受到集群大小的限制,如果您想要复制3,那么您将需要3个节点。

vcudknz3

vcudknz32#

这个简单的问题并没有简单的答案:)取决于你的用例。
如果你有一个问题,这是很容易划分,那么我想有更多的节点应该是一个办法。基本上是分而治之。
但是如果你的问题不容易解决,那么拥有更少更强的节点是你唯一的选择。
一般来说,hadoop是针对前一类问题的。
我希望这有帮助。如果你能给我们更多的细节,我想我们应该能更好地帮助他们。

相关问题