拆分tar.gz后将.tar.gz转换为序列文件

jgwigjjp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(412)

是否可以使用map reduce将1.tar.gz文件转换为1个序列文件?到目前为止,我们遇到了所有不拆分tar.gz或从本地文件系统执行此操作的解决方案。
http://qethanm.cc/projects/forqlift/examples/

xytpbqjk

xytpbqjk1#

想象一下,gzip压缩文件存储在hdfs中,其大小为1gb。hdfs块大小为64 mb时,文件将存储为16块。但是,为每个块创建一个分割将不起作用,因为不可能在gzip流中的任意点开始读取,因此map任务不可能独立于其他块读取其分割。gzip格式使用deflate存储压缩数据,deflate将数据存储为一系列压缩块。问题是,没有以任何方式区分每个块的开头,这将允许位于流中任意点的读取器前进到下一个块的开头,从而使其自身与流同步。因此,gzip不支持拆分。

相关问题