hadoop—在hdfs上合并小型.bz2压缩文件会增加总大小

nwsw7zdq  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(215)

我在hdfs上有30万个小的.bz2文件。我正在编写一个pig作业来合并所有文件并生成500个输出.bz2文件。小文件的总大小为300gb。合并后,500个合并文件的总大小约为500gb。这是我用过的Pig剧本。

data = load 'inputFolder';   -- 300K files with total size 300GB
data = DISTINCT data PARALLEL 500; 
store data into 'outputFolder';  --500 files with total size 500GB

你能解释一下这个空间是怎么增加的吗?有没有其他方法对Pig做同样的事?
谢谢,托尼

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题