在对hive和pig进行基准测试之后,我发现pig中的groupby操作符比hive的要慢得多。我想知道是否有人经历过同样的事情?以及人们是否有任何技巧来提高这项行动的绩效(在这里添加一个distinct并没有帮助。我目前正在重新运行基准测试(启用lzo压缩)。
xqk2d5yq1#
看来你看错了方向。分组只是以某种方式对数据进行分组,之后的工作非常重要。在分析pig的性能时,您应该记住以下几点:1) 多个语句可以合并到一个mr job中,因此不要查看语句,而是查看生成的mr jobs的性能。2) 表现上的巨大差异应该是有原因的。这可能是:2.1不同的输入格式,对标清管器与Hive时的其他情况。2.2合路器因故停用:http://pig.apache.org/docs/r0.9.1/perf.html#when+使用了+组合器+在大多数情况下,这恰好是我的瓶颈。根据我的经验,Pig/Hive的性能没有很大的差别。
1条答案
按热度按时间xqk2d5yq1#
看来你看错了方向。分组只是以某种方式对数据进行分组,之后的工作非常重要。在分析pig的性能时,您应该记住以下几点:
1) 多个语句可以合并到一个mr job中,因此不要查看语句,而是查看生成的mr jobs的性能。
2) 表现上的巨大差异应该是有原因的。这可能是:
2.1不同的输入格式,对标清管器与Hive时的其他情况。
2.2合路器因故停用:http://pig.apache.org/docs/r0.9.1/perf.html#when+使用了+组合器+在大多数情况下,这恰好是我的瓶颈。
根据我的经验,Pig/Hive的性能没有很大的差别。