pig:slow group by操作符

rks48beu 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(384)

在对hive和pig进行基准测试之后，我发现pig中的groupby操作符比hive的要慢得多。我想知道是否有人经历过同样的事情？以及人们是否有任何技巧来提高这项行动的绩效(在这里添加一个distinct并没有帮助。我目前正在重新运行基准测试（启用lzo压缩）。

hadoop apache-pig

来源：https://stackoverflow.com/questions/18298486/pig-slow-group-by-operator

1条答案

按热度按时间

xqk2d5yq1#

看来你看错了方向。分组只是以某种方式对数据进行分组，之后的工作非常重要。在分析pig的性能时，您应该记住以下几点：
1）多个语句可以合并到一个mr job中，因此不要查看语句，而是查看生成的mr jobs的性能。
2）表现上的巨大差异应该是有原因的。这可能是：
2.1不同的输入格式，对标清管器与Hive时的其他情况。
2.2合路器因故停用：http://pig.apache.org/docs/r0.9.1/perf.html#when+使用了+组合器+在大多数情况下，这恰好是我的瓶颈。
根据我的经验，Pig/Hive的性能没有很大的差别。

赞(0）回复(0）举报 2021-06-03

我来回答

pig:slow group by操作符

1条答案

相关问题

热门标签

最新问答