这个问题在这里已经有答案了:
hadoop map reduce二次排序(5个答案)
7年前关门了。
嗨,我想学习如何在hadoop中按值排序单词计数。我知道hadoop需要排序键,但不是按值排序。
我知道要对值进行排序,必须有一个partitioner、groupingcomparator和一个sortcomparator
但是,我有点困惑,在应用这些概念一起排序的字数价值。
我们是否需要另一个map reduce作业来实现相同的效果,或者需要一个组合器来计算出现的次数,然后在这里排序并将相同的结果发送到reducer?
有谁能解释如何按值对单词计数示例排序吗?
2条答案
按热度按时间wztqucjr1#
你需要做第二个mapreduce工作。除非你在总数上下结论(第一个mr工作就是这么做的),否则你怎么能想到按值排序(单词的计数)?逻辑上是不可能的。
xhv8bpkk2#
这称为二次排序。详见此和此。