我正在尝试使用s3distcp来编译许多小的gzip文件,不幸的是这些文件不会以 gz
分机。这里有一个 outputCodec
参数,但没有相应的 inputCodec
. 我试着用 --jobconf
使用hadoop流调用,但它似乎什么也没做(输出仍然是gzip)。我使用的命令是
hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
--src s3://inputfolder --dest hdfs:///data
你知道会发生什么吗?我正在运行aws emr ami-3.9。
1条答案
按热度按时间u5i3ibmn1#
正如您在s3distcp代码中看到的:https://github.com/netshade/s3distcp/blob/b899910d04a112019ba695f29d3b0b3d9a785603/src/main/java/com/amazon/external/elasticmapreduce/s3distcp/copyfilesreducer.java 第197行,s3distcp依赖于文件扩展名来示例化inputstream。则无法将输入格式设置为参数。