调整hadoop参数

hc8w905p  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(433)

有没有一种方法可以微调hadoop配置参数,而不必对每个可能的组合运行测试?我目前正在一个8节点集群上工作,我想优化map reduce任务的性能以及spark性能(在hdfs上运行)。

yhived7q

yhived7q1#

简而言之,答案是否定的。您需要到处玩并运行烟雾测试来确定集群的最佳性能。所以我先看看这些
链接:
https://community.hortonworks.com/articles/103176/hdfs-settings-for-better-hadoop-performance.html
http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-1/
http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-2/
讨论了将影响mapreduce作业的一些主题:
配置hdfs块大小以获得最佳性能
避免文件大小小于块大小
优化datanode jvm以获得最佳性能
启用hdfs短路读取
避免读取或写入过时的数据节点
让您了解如何在yarn/tez中为每个节点集群设置4节点32核128gbram:(来自hadoop的multinode cluster too slow)。如何提高数据处理速度?)
对于tez:divide ram/cores=max tez container size,所以在我的例子中:128/32=4gb
特兹:

Yarn:
我喜欢用yarn运行每个节点的最大可用内存,我的略高于推荐值,但推荐值会导致tez/mr jobs崩溃,因此76gb在我的情况下工作得更好。你需要发挥所有这些价值观!

相关问题