正确的减少次数似乎是: 0.95 or 1.75 multiplied by (<no. of nodes> * <no. of maximum containers per node>). 使用0.95,所有reduce都可以立即启动,并在Map完成时开始传输Map输出。使用1.75,速度更快的节点将完成第一轮reduce并启动第二轮reduce,从而更好地完成负载平衡。 增加的数量减少了框架开销,但增加了负载平衡并降低了失败的成本。 上面的比例因子略小于整数,以便在框架中为推测性任务和失败的任务保留一些缩减槽。 所以主要的优势是负载平衡和在集群上并行运行任务。
1条答案
按热度按时间niknxzdl1#
正确的减少次数似乎是:
0.95 or 1.75 multiplied by (<no. of nodes> * <no. of maximum containers per node>).
使用0.95,所有reduce都可以立即启动,并在Map完成时开始传输Map输出。使用1.75,速度更快的节点将完成第一轮reduce并启动第二轮reduce,从而更好地完成负载平衡。增加的数量减少了框架开销,但增加了负载平衡并降低了失败的成本。
上面的比例因子略小于整数,以便在框架中为推测性任务和失败的任务保留一些缩减槽。
所以主要的优势是负载平衡和在集群上并行运行任务。