有没有一种方法可以微调hadoop配置参数,而不必对每个可能的组合运行测试?我目前正在一个8节点集群上工作,我想优化map reduce任务的性能以及spark性能(在hdfs上运行)。
yhived7q1#
简而言之,答案是否定的。您需要到处玩并运行烟雾测试来确定集群的最佳性能。所以我先看看这些链接:https://community.hortonworks.com/articles/103176/hdfs-settings-for-better-hadoop-performance.htmlhttp://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-1/http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-2/讨论了将影响mapreduce作业的一些主题:配置hdfs块大小以获得最佳性能避免文件大小小于块大小优化datanode jvm以获得最佳性能启用hdfs短路读取避免读取或写入过时的数据节点让您了解如何在yarn/tez中为每个节点集群设置4节点32核128gbram:(来自hadoop的multinode cluster too slow)。如何提高数据处理速度?)对于tez:divide ram/cores=max tez container size,所以在我的例子中:128/32=4gb特兹:Yarn:我喜欢用yarn运行每个节点的最大可用内存,我的略高于推荐值,但推荐值会导致tez/mr jobs崩溃,因此76gb在我的情况下工作得更好。你需要发挥所有这些价值观!
1条答案
按热度按时间yhived7q1#
简而言之,答案是否定的。您需要到处玩并运行烟雾测试来确定集群的最佳性能。所以我先看看这些
链接:
https://community.hortonworks.com/articles/103176/hdfs-settings-for-better-hadoop-performance.html
http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-1/
http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-2/
讨论了将影响mapreduce作业的一些主题:
配置hdfs块大小以获得最佳性能
避免文件大小小于块大小
优化datanode jvm以获得最佳性能
启用hdfs短路读取
避免读取或写入过时的数据节点
让您了解如何在yarn/tez中为每个节点集群设置4节点32核128gbram:(来自hadoop的multinode cluster too slow)。如何提高数据处理速度?)
对于tez:divide ram/cores=max tez container size,所以在我的例子中:128/32=4gb
特兹:
Yarn:
我喜欢用yarn运行每个节点的最大可用内存,我的略高于推荐值,但推荐值会导致tez/mr jobs崩溃,因此76gb在我的情况下工作得更好。你需要发挥所有这些价值观!