什么是确切的map reduce工作流？

f87krz0w 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(304)

“hadoop权威指南-tom white”一书的摘要是：
用户的map函数和用户的reduce函数之间的所有逻辑都称为shuffle。然后，在map和reduce之间切换。在用户的map（）函数之后，输出在内存循环缓冲区中。当缓冲区已满80%时，后台线程开始运行。后台线程将缓冲区的内容输出到溢出文件中。此溢出文件按键进行分区。在每个分区内，键值对按键排序，排序后，如果启用了combiner函数，则调用combiner函数。所有溢出文件将合并到一个mapoutputfile中。所有map任务的mapoutputfile都将通过网络收集以减少任务。reduce任务将执行另一种排序。然后调用用户的reduce函数。
所以问题是：
1.）根据上述总结，这是流程：
Map器——partioner——sort——combiner——shuffle——sort——reducer——输出
1a）这是流程还是其他流程？
1b.）你能用一个例子来解释上面的流程吗？比如单词计数的例子（我在网上找到的那些没有那么详细）？
2.）那么mappers阶段输出是一个大文件（mapoutputfile）？就是这个大文件被分解成键-值对，然后传递到相应的缩减器上？
3.）当数据已经被排序并在传递到各自的减速机上时进行组合时，为什么还要进行第二次排序？
4.）假设mapper1在datanode1上运行，那么reducer1有必要在datanode1上运行吗？或者它可以在任何数据节点上运行？

hadoop mapreduce bigdata combiners

来源：https://stackoverflow.com/questions/42132371/what-is-the-exact-map-reduce-workflow

1条答案

按热度按时间

oipij1gg1#

回答这个问题就像改写了整个历史。您的很多疑问都与操作系统概念有关，而不是mapreduce。
Map器数据写入本地文件系统。数据是根据减速机的数量进行分区的。在每个分区中，根据溢出发生的时间，可以有多个文件。
给定分区中的每个小文件都会被排序，就像写入文件之前一样，内存中的排序也会完成。
为什么需要在Map器端对数据进行排序？a、数据在Map器端进行排序和合并，以减少文件数量。b、文件被排序，因为在reducer上不可能收集给定键的所有值。
在reducer上收集数据之后，首先需要减少系统上的文件数量（记住ulimit对每个用户都有一个固定数量，在本例中是hdfs）
reducer只是在一小部分已排序的文件上维护一个文件指针，并对它们进行合并。
欲了解更多有趣的想法，请参考：http://bytepadding.com/big-data/map-reduce/understanding-map-reduce-the-missing-guide/

赞(0）回复(0）举报 2021-06-02

我来回答

什么是确切的map reduce工作流？

1条答案

相关问题

热门标签

最新问答