我需要什么样的环境来测试大数据框架?

khbbv19g  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(332)

**结束了。**这个问题离题了。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。

8年前关门了。
改进这个问题
作为我论文的一部分,我必须评估和测试一些大数据框架,比如hadoop或storm。为了获得有关性能和可伸缩性的相关信息,您建议使用哪种最小设置?什么云平台最适合这种情况?因为我评估的框架不止一个,所以开箱即用的paas解决方案不是最佳选择。正确的?获取相关信息的最小节点/服务器数是多少?越便宜越好,因为我做这件事的公司可能不会给我一个20台机器的集群;)
非常感谢,克洛克斯

s71maibg

s71maibg1#

嗯,你肯定会想要至少两台物理机器。像在一台物理机器上放置多个虚拟机这样的任何事情都是不可能的,因为这样您就不会得到典型的分布式系统的网络开销。
作为一个现实的场景,三可能是你能逃脱的绝对最小值。即便如此,很多时候,hadoop的开销也只是被收益所抵消。
我想说5是最现实的最小值,是一个非常典型的小簇大小。5-8是一个很好的小范围。
就平台而言,我认为亚马逊EC2/EMR应该永远是一个很好的第一选择。它是一个完善的、很棒的服务,许多真实世界的集群都在它上面运行。它的优点是易于使用,相对便宜,并且能代表真实世界的场景。唯一的缺点是,虚拟化可能会导致它的伸缩性与单个物理机器略有不同,但这对您来说可能是个问题,也可能不是。如果使用更大的示例类型,我相信它们的虚拟化程度较低。
希望这有帮助。

相关问题