根据我的理解,map/reduce在处理大文件时效果更好我知道这是由于分裂逻辑等),我们可以把文件作为值和文件名作为关键的顺序文件和优化。现在的问题是我正在使用pig进行分析,我们有大约数千个文件,但都是kb。正如我们所知,Pig拉丁语是转换和运行的乔布斯先生,所以我有一个疑问,乔布斯先生将在效率由于小文件。有没有什么方法可以让我控制一些小文件处理Pig?有现成的解决方案吗?
gorkyyrv1#
pig的特点是将小文件组合成更大的块:http://pig.apache.org/docs/r0.11.1/perf.html#combine-文件
1条答案
按热度按时间gorkyyrv1#
pig的特点是将小文件组合成更大的块:http://pig.apache.org/docs/r0.11.1/perf.html#combine-文件