我正在尝试为给定集群(512gb ram,100 vCore)最小化具有同一pig脚本的多个“示例”的工作流的执行时间。增加cogroup操作的parallel子句值可以得到更好的结果。然而,有没有一个公式来为这样的条款提取好的价值?关于这一点,pig文档是非常含糊其辞的!
hlswsv351#
不幸的是,没有一个明确的规则来定义减缩器的数量,它可以做更多的经验性研究cogroup执行时间阶段和玩不同的并行值(建议从100开始从我的经验)。然而,上限通常被定义为numreduces<<heapsize/(2*io.buffer.size)。你可以在这里找到更多
1条答案
按热度按时间hlswsv351#
不幸的是,没有一个明确的规则来定义减缩器的数量,它可以做更多的经验性研究cogroup执行时间阶段和玩不同的并行值(建议从100开始从我的经验)。
然而,上限通常被定义为numreduces<<heapsize/(2*io.buffer.size)。你可以在这里找到更多