如何用hadoop处理.gz输入文件?

ndasle7k  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(306)

请允许我提供一个场景: hadoop jar test.jar Test inputFileFolder outputFileFolder 哪里 test.jar 按键、时间和地点对信息进行排序 inputFileFolder 包含多个.gz文件,每个.gz文件大约10gb outputFileFolder 包含一堆.gz文件
我的问题是,处理inputfilefolder中那些.gz文件的最佳方法是什么?谢谢您!

jyztefdp

jyztefdp1#

hadoop将自动检测和读取.gz文件。但是,由于.gz不是可拆分的压缩格式,因此每个文件都将由单个Map器读取。最好使用另一种格式,如snappy,或者解压、拆分并重新压缩成更小的块大小的文件。

相关问题