这个问题不会讨论hadoop或spark中的具体情况。
当我读mapreduce:simplified data processing on large clusters时,我对
主人挑选空闲的工人,并分配给每个人一个Map任务或减少任务。
那么,主控器如何决定一个工作者是应该获得map任务还是reduce任务呢?
如果我们只是先分配任务,我们就永远不会完成任务吗(因为没有Map任务会完成)
这个问题不会讨论hadoop或spark中的具体情况。
当我读mapreduce:simplified data processing on large clusters时,我对
主人挑选空闲的工人,并分配给每个人一个Map任务或减少任务。
那么,主控器如何决定一个工作者是应该获得map任务还是reduce任务呢?
如果我们只是先分配任务,我们就永远不会完成任务吗(因为没有Map任务会完成)
1条答案
按热度按时间lxkprmvk1#
reduce只需要在map和shuffle阶段所需的数据完成之后运行。
在mapreduce的hadoop实现环境中,map任务是根据数据的局部性来决定的,否则,任何由yarn决定的开放资源都会被选择