hadoopmapreduce多重归约排序

q5lcpyga 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(233)

我正在使用hadoopmapreduce对一个大文档进行排序，并使用 KeyFieldBasedPartitioner 将不同的输入分配到不同的减速器。我要解决这个问题的想法是让Map器发送每个单词的第一个字母作为关键字，单词作为值。每一个字母相同的单词都会被放到一个减缩器中，减缩器会对所有以这个字母开头的单词进行排序，然后在最后我只使用这个字母- getmerge 并将所有结果合并到一个文档中，然后查看完全排序的文档。
所以到目前为止我的整个过程是这样的：
巨型文档->Map器（删除标点符号并拆分单词）->输出第一个字母、单词对 KeyFieldBasedPartitioner ->将其发送到26个减速机中的一个（每个字母一个）->减速机排序
现在减速机都是各自分类的，但是当我使用- getmerge 为了组合它们，文档从以“n”开头的单词开始，然后以以“m”开头的单词结束。如何指定它以使最终输出有序？

hadoop mapreduce python sorting

来源：https://stackoverflow.com/questions/39948519/hadoop-mapreduce-multiple-reducer-sorting

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

hadoopmapreduce多重归约排序

暂无答案！

相关问题

热门标签

最新问答