hadoop基准测试的最佳实践是什么?

gkl3eglg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(456)

我使用testdfsio来测试hadoop的i/o性能。我使用的测试平台是一个由3个数据节点和一个名称节点组成的小型虚拟集群。每个虚拟机将有6-8gbram和100-250gbhdd。
我想知道两件事:
关于我的设置,每个文件的文件数(nrfiles)和文件大小(filesize)参数的值应该是多少,这样我们就可以将我的小型集群的结果与标准大小的集群相关联,例如具有8-12 x 2-tb硬盘和64 gbs ram以及更高的处理速度。这样做对吗。
一般来说,hadoop基准测试的最佳实践是什么?比如:什么是推荐的集群规范(datanodes,namenodes的规范),推荐的测试数据大小,为了得到符合实际hadoop应用程序的结果,测试台应该有什么配置/规范
简单地说,我想知道正确的hadoop测试设备设置和正确的测试方法,以便我的结果与生产集群相关。
这将有助于参考已证实的工作。
另一个问题是假设我有-nrfiles 15-filesize 1gb,我发现map任务的数量将等于提到的nrfiles的数量,但是它们是如何分布在3个数据节点中的呢?我不清楚Map任务的数量。是不是像15个文件,每个文件将有一个Map工作呢?
我没有找到任何文档或描述testdfsio究竟是如何工作的。

xwmevbvl

xwmevbvl1#

不能比较两个群集的结果。结果可能因节点上Map器的数量、复制因子、网络等而异。群集规范将取决于您尝试使用它的目的。如果您提供-nrfiles15-filesize1000,那么每个1gb将创建15个文件。每个Map器将在一个文件上工作,因此将有15个Map任务。对于3节点集群,假设一个节点上只有1个Map器,那么将有5个波来写入完整的数据。有关testdfsio和其他基准测试工具,请参阅以下链接:http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/

相关问题