我使用的是hadoopcdh4.1.2,我的mapper程序几乎是输入数据的回声。但在我的工作状态页面,我看到
FILE: Number of bytes written 3,040,552,298,327
几乎等于
FILE: Number of bytes read 3,363,917,397,416
对于Map绘制者,我已经设置了
conf.set("mapred.compress.map.output", "true");
似乎他们的压缩算法不适合我的工作?为什么会这样?
fumotvh31#
你的工作有减速机吗?如果是这样,请选中“reduce shuffle bytes”。如果该值远远小于(1/5左右)“map output bytes”,则可以假定map输出是压缩的。压缩发生在map完成之后,因此,它可能会显示其输出的实际数据大小,而不是压缩的大小。如果您仍然怀疑它是否正常工作,请提交有压缩和无压缩的作业,并比较“减少无序字节数”。就Map输出压缩而言,“减少无序字节数”才是最重要的。
1条答案
按热度按时间fumotvh31#
你的工作有减速机吗?
如果是这样,请选中“reduce shuffle bytes”。如果该值远远小于(1/5左右)“map output bytes”,则可以假定map输出是压缩的。压缩发生在map完成之后,因此,它可能会显示其输出的实际数据大小,而不是压缩的大小。
如果您仍然怀疑它是否正常工作,请提交有压缩和无压缩的作业,并比较“减少无序字节数”。就Map输出压缩而言,“减少无序字节数”才是最重要的。