hadoop-按键正确排序并按减速机分组

li9yvcax 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(522)

我从减速机中得到了一些数据如下：

我想根据第二栏的数字来排序。这样地：

在本地运行程序时，我使用：

sort -k2,2n

但我不知道如何在hadoop上做同样的事情。我尝试了几个不起作用的选项，例如：

-D mapreduce.partition.keycomparator.options=-k2,2n

而且，我希望所有具有相同密钥的数据都放在同一个减速机上。所以在这种情况下：

2,3   0

和

6,3   0

应采用相同的减速机加工。
有没有关于hadoop的建议？
提前谢谢！

hadoop mapreduce sorting Mapper

来源：https://stackoverflow.com/questions/33326155/hadoop-properly-sort-by-key-and-group-by-reducer

1条答案

按热度按时间

toiithl61#

在作业的默认配置中，第一列是result from reducer的键，第二列是值。为了产生结果，reducer使用相同的键处理所有记录。因此，在您的情况下，您需要运行一个额外的mapreduce作业。Map将第二列作为键，第一列作为值。此作业将根据您的请求对数据进行分组。但是，如果您的数据量很小，那么每个作业只能设置一个reducer—d mapred.reduce.tasks=1。

赞(0）回复(0）举报 2021-05-30

我来回答

hadoop-按键正确排序并按减速机分组

1条答案

相关问题

热门标签

最新问答