我在hdfs上有30万个小的.bz2文件。我正在编写一个pig作业来合并所有文件并生成500个输出.bz2文件。小文件的总大小为300gb。合并后,500个合并文件的总大小约为500gb。这是我用过的Pig剧本。
data = load 'inputFolder'; -- 300K files with total size 300GB
data = DISTINCT data PARALLEL 500;
store data into 'outputFolder'; --500 files with total size 500GB
你能解释一下这个空间是怎么增加的吗?有没有其他方法对Pig做同样的事?
谢谢,托尼
暂无答案!
目前还没有任何答案,快来回答吧!