hadoop/spark:复制因子和性能是如何相关的?

2j4z5cfb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(409)

在不讨论所有其他性能因素(磁盘空间和名称节点对象)的情况下,replication factor如何提高mr、tez和spark的性能。
例如,如果我们有5个datanade,那么执行引擎将复制设置为5会更好吗?最好的和最差的价值是什么?
这对聚合、联接和仅Map作业有何好处?

kninwzqo

kninwzqo1#

hadoop的主要租户之一是将计算转移到数据上。
如果将复制因子设置为大约等于datanodes的数量,则可以保证每台计算机都能够处理该数据。
但是,正如您所提到的,namenode开销非常重要,文件或副本越多,请求速度就越慢。在一个不健康的集群中,更多的副本也会使您的网络饱和。我从没见过比5更高的,而且那只是公司最关键的数据。其他的,他们在2点离开
在大多数情况下,除了tez/spark优于mr之外,执行引擎并不重要,但更重要的是文件的大小和存储格式,这将是执行性能的主要驱动因素

相关问题