用pig处理小文件

6tqwzwtp  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(312)

根据我的理解,map/reduce在处理大文件时效果更好我知道这是由于分裂逻辑等),我们可以把文件作为值和文件名作为关键的顺序文件和优化。
现在的问题是我正在使用pig进行分析,我们有大约数千个文件,但都是kb。正如我们所知,Pig拉丁语是转换和运行的乔布斯先生,所以我有一个疑问,乔布斯先生将在效率由于小文件。
有没有什么方法可以让我控制一些小文件处理Pig?有现成的解决方案吗?

gorkyyrv

gorkyyrv1#

pig的特点是将小文件组合成更大的块:http://pig.apache.org/docs/r0.11.1/perf.html#combine-文件

相关问题