pig:如何为parallel子句选择好的值?

hm2xizp9  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

我正在尝试为给定集群(512gb ram,100 vCore)最小化具有同一pig脚本的多个“示例”的工作流的执行时间。
增加cogroup操作的parallel子句值可以得到更好的结果。然而,有没有一个公式来为这样的条款提取好的价值?关于这一点,pig文档是非常含糊其辞的!

hlswsv35

hlswsv351#

不幸的是,没有一个明确的规则来定义减缩器的数量,它可以做更多的经验性研究cogroup执行时间阶段和玩不同的并行值(建议从100开始从我的经验)。
然而,上限通常被定义为numreduces<<heapsize/(2*io.buffer.size)。你可以在这里找到更多

相关问题