我有一个问题是关于计算Pig脚本中不同操作员所用的时间。例如,我的脚本使用了以下运算符:加载。。foreach..生成。。分组依据。。。foreach..生成。。加入。。。联盟。。。现在,当脚本运行时,它将运行一系列1个或多个mapreduce作业。现在,如果我想调整脚本的性能,我想知道哪个操作符花费了很多时间。有没有办法让我检查一下每个操作员运行了多长时间?谢谢。
hk8txs481#
也许你可以看看oreilly的“编程Pig”来知道哪个函数用于reduce阶段,哪个只需要map阶段。有不同类型的联接,您将了解每个联接需要多少mr阶段。这将帮助你提高你的表现。顺便说一下,你的日志也会给你一些提示。
Job Stats (time in seconds): JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime Alias Feature Outputs job_201510052259_0002 1 0 4 4 4 4 0 0 0 0 A,B**MAP_ONLY** hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,
1条答案
按热度按时间hk8txs481#
也许你可以看看oreilly的“编程Pig”来知道哪个函数用于reduce阶段,哪个只需要map阶段。有不同类型的联接,您将了解每个联接需要多少mr阶段。这将帮助你提高你的表现。顺便说一下,你的日志也会给你一些提示。