请允许我提供一个场景: hadoop jar test.jar Test inputFileFolder outputFileFolder 哪里 test.jar 按键、时间和地点对信息进行排序 inputFileFolder 包含多个.gz文件,每个.gz文件大约10gb outputFileFolder 包含一堆.gz文件我的问题是,处理inputfilefolder中那些.gz文件的最佳方法是什么?谢谢您!
hadoop jar test.jar Test inputFileFolder outputFileFolder
test.jar
inputFileFolder
outputFileFolder
jyztefdp1#
hadoop将自动检测和读取.gz文件。但是,由于.gz不是可拆分的压缩格式,因此每个文件都将由单个Map器读取。最好使用另一种格式,如snappy,或者解压、拆分并重新压缩成更小的块大小的文件。
1条答案
按热度按时间jyztefdp1#
hadoop将自动检测和读取.gz文件。但是,由于.gz不是可拆分的压缩格式,因此每个文件都将由单个Map器读取。最好使用另一种格式,如snappy,或者解压、拆分并重新压缩成更小的块大小的文件。