为什么一个分区在被缩减之前需要被排序？

hc2pp10m 于 2021-06-01 发布在 Hadoop

关注(0)|答案(0)|浏览(265)

从这里开始：
根据hadoop权威指南“在每个分区内，后台线程执行内存中的按键排序，如果有组合器函数，则在排序的输出上运行”
我认为分区对应于一个键，因此reduce任务将减少一组只与一个键关联的值。如果只有一个键，分区不是已经排序了吗？
毕竟，在我看来，这里的答案似乎与前面的引语相矛盾：
排序为reducer节省了时间，有助于它轻松区分何时应该启动新的reduce任务。简单地说，当排序后的输入数据中的下一个键与上一个键不同时，它只启动一个新的reduce任务。
意思是reduce任务与一个键相关联，因为每个reduce任务有一个分区，所以分区与一个键相关联。那么，如果只有一个键，为什么每个分区中都必须有一个排序呢？

Java hadoop mapreduce hadoop-partitioning

来源：https://stackoverflow.com/questions/52582167/why-does-a-partition-need-to-be-sorted-prior-to-being-reduced

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

为什么一个分区在被缩减之前需要被排序？

暂无答案！

相关问题

热门标签

最新问答