mapreduce工作流基准测试

fnvucqvd  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(319)

任何机构都可以通过任何基准测试mapreduce工作流吗?或者通常用bigdata工作流基准测试一些工作流系统(如oozie)的性能和准确性?
谢谢

sz81bmfz

sz81bmfz1#

可能最著名的mapreduce基准是 Terasort . 它需要大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模mapreduce作业,其中包括mappers和reducer。它包含在mapreduce中,因此您不必单独安装它。
第一步是使用 Teragen ,使用mapreduce lib目录中的mapreduce examples jar:

hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>

第二步是跑步 Terasort 在生成的输入数据上。此步骤所用的时间是基准测试的结果:

hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>

(可选)第三步是使用验证输出结果是否正确 Teravalidate :

$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>

从一个集群到另一个集群比较这个基准的计时可能非常困难,但是它对于比较同一集群中的不同更改(例如修改配置或添加新节点)非常有用。
有一个深入的描述 Terasort 在这个博客里。

相关问题