pig:slow group by操作符

rks48beu  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(384)

在对hive和pig进行基准测试之后,我发现pig中的groupby操作符比hive的要慢得多。我想知道是否有人经历过同样的事情?以及人们是否有任何技巧来提高这项行动的绩效(在这里添加一个distinct并没有帮助。我目前正在重新运行基准测试(启用lzo压缩)。

xqk2d5yq

xqk2d5yq1#

看来你看错了方向。分组只是以某种方式对数据进行分组,之后的工作非常重要。在分析pig的性能时,您应该记住以下几点:
1) 多个语句可以合并到一个mr job中,因此不要查看语句,而是查看生成的mr jobs的性能。
2) 表现上的巨大差异应该是有原因的。这可能是:
2.1不同的输入格式,对标清管器与Hive时的其他情况。
2.2合路器因故停用:http://pig.apache.org/docs/r0.9.1/perf.html#when+使用了+组合器+在大多数情况下,这恰好是我的瓶颈。
根据我的经验,Pig/Hive的性能没有很大的差别。

相关问题