我用多个文件运行了多个测试(最大的文件是83.7 mb)我知道网络带来了一些开销,但我希望得到更好的结果,因为我认为使用分布式系统的目的是减少响应时间。我用/usr/bin/time来衡量性能。这里有什么问题?
dgsult0t1#
如果您的mapreduce密钥被发送到集群中的单个节点,那么与单个节点相比,您没有得到任何性能改进,并且会增加数据洗牌的网络开销如果您没有为硬件调整mapreduceYarn容器的大小,那么您将看到较差的性能。如果您存储了大量小于hdfs块大小(128mb,如果您保留了默认值)的文件,如您所述,那么您就是在浪费资源。此外,如果您正在处理单个大文件(如zip文件)或其他“不可拆分”文件格式,那么与单个mapper节点相比没有任何好处。我用/usr/bin/time来衡量性能mapreduce作业输出和历史服务器都会告诉您一个作业及其任务实际需要多长时间
1条答案
按热度按时间dgsult0t1#
如果您的mapreduce密钥被发送到集群中的单个节点,那么与单个节点相比,您没有得到任何性能改进,并且会增加数据洗牌的网络开销
如果您没有为硬件调整mapreduceYarn容器的大小,那么您将看到较差的性能。
如果您存储了大量小于hdfs块大小(128mb,如果您保留了默认值)的文件,如您所述,那么您就是在浪费资源。此外,如果您正在处理单个大文件(如zip文件)或其他“不可拆分”文件格式,那么与单个mapper节点相比没有任何好处。
我用/usr/bin/time来衡量性能
mapreduce作业输出和历史服务器都会告诉您一个作业及其任务实际需要多长时间