我运行了一个hadoop作业,它生成了多个.deflate文件。现在这些文件存储在s3上。所以,我不能跑 hadoop fs -text /somepath 命令它将采用hdfs路径。现在,我想把存储在s3上的多个.deflate格式的文件转换成一个gzip文件。
hadoop fs -text /somepath
guz6ccqo1#
如果使用gzip代码生成gzip文件,则可以简单地将它们连接起来生成一个大型gzip文件。您可以用gzip头和尾文件 Package deflate流,如RFC1952所述。一个固定的10字节报头和一个8字节的尾部,它是从未压缩的数据计算出来的。因此,您需要对每个流进行解压缩。deflate流以计算其crc-32和放入拖车的未压缩长度。
1条答案
按热度按时间guz6ccqo1#
如果使用gzip代码生成gzip文件,则可以简单地将它们连接起来生成一个大型gzip文件。
您可以用gzip头和尾文件 Package deflate流,如RFC1952所述。一个固定的10字节报头和一个8字节的尾部,它是从未压缩的数据计算出来的。因此,您需要对每个流进行解压缩。deflate流以计算其crc-32和放入拖车的未压缩长度。