hadoopMap器压缩输出不工作?

i2byvkas  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(612)

我使用的是hadoopcdh4.1.2,我的mapper程序几乎是输入数据的回声。但在我的工作状态页面,我看到

FILE: Number of bytes written  3,040,552,298,327

几乎等于

FILE: Number of bytes read 3,363,917,397,416

对于Map绘制者,我已经设置了

conf.set("mapred.compress.map.output", "true");

似乎他们的压缩算法不适合我的工作?为什么会这样?

fumotvh3

fumotvh31#

你的工作有减速机吗?
如果是这样,请选中“reduce shuffle bytes”。如果该值远远小于(1/5左右)“map output bytes”,则可以假定map输出是压缩的。压缩发生在map完成之后,因此,它可能会显示其输出的实际数据大小,而不是压缩的大小。
如果您仍然怀疑它是否正常工作,请提交有压缩和无压缩的作业,并比较“减少无序字节数”。就Map输出压缩而言,“减少无序字节数”才是最重要的。

相关问题