使hadoop拆分lzo输入文件

6gpjuf90  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(227)

我正在使用hadooplzo来处理大型压缩数据上的mr。实际上,我的作业是由一个工具自动生成的,但这不是问题所在。我的lzo压缩可以在所有节点上工作(尝试使用distributedlzoindexer),我还可以使用以下命令行在拆分的lzo文件上使用流:

hadoop  jar /path/to/jar/hadoop-streaming-1.2.0.1.3.0.0-107.jar \
-input /path/to/testfile.lzo -output wc_test 
-inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat \
-mapper 'cat' -reducer 'wc -l'

它创建了11个Map(根据我的文件大小我猜),并正常处理它。但是当我尝试任何其他jar文件时,lzo文件只使用一个Map进行处理。所以我的问题是
通常hadoop会根据压缩编解码器使用输入格式?我的hadoop-lzo-0.4.3.jar在路径中,所以我真的不明白为什么它仍然使用默认的文本格式。
有没有办法强迫hadoop使用lzotextinputformat?
谢谢你的阅读。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题