如何在mapreduce中按键和值排序？

dgjrabp2 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(446)

我有一个文本文件：

我想把这个文件作为mapreduce作业的输出：

这意味着它必须按第1、第2和第3列排序。
我使用这个命令：


# !/bin/bash

IN_DIR="/user/cloudera/temp"
OUT_DIR="/user/cloudera/temp_out"
NUM_REDUCERS=1

hdfs dfs -rmr ${OUT_DIR} > /dev/null

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.jab.name="Parsing mista pages job 1 (parsing)" \
-D stream.num.map.output.key.fields=3 \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.partition.keycomparator.options='-k1,1n -k2,2n -k3,3n' \
-D mapreduce.job.reduces=${NUM_REDUCERS} \
-mapper 'cat' \
-reducer 'cat' \
-input ${IN_DIR} \
-output ${OUT_DIR}

hdfs dfs -cat ${OUT_DIR}/* | head -100

得到我想要的。但是。当我做num\u reducers=2时，我得到这个输出：

[cloudera@quickstart ~]$ hdfs dfs -cat /user/cloudera/temp_out/part-00000 | head -100
9   1   1   
10  9   45  
10  12  30  
10  15  55  
12  7   18  
12  10  1   
14  5   5

[cloudera@quickstart ~]$ hdfs dfs -cat /user/cloudera/temp_out/part-00001 | head -100
9   0   1   
9   2   1   
10  1   15  
10  9   40  
12  9   0

为什么partitioner用相同的键（例如“9”）将我的数据拆分为不同的reducer？
如何强制分区器按键分割Map器输出并按值排序。例如，如果我有4个减速机，减速机输入应该是：

hadoop mapreduce sorting hadoop-streaming

来源：https://stackoverflow.com/questions/48438168/how-to-sort-by-key-and-value-in-mapreduce

1条答案

按热度按时间

sgtfey8w1#

您可以覆盖 default Partioner 将每个键放入不同的reduce。设置相同的reduce nums。让每个reduce只处理一个键。
例如（）

groupMap.put("9", 0);
groupMap.put("10", 1);
groupMap.put("12", 2);
groupMap.put("14", 3);

添加 -partitioner 在工作中使用自己的分区。我想它可能对你有用

赞(0）回复(0）举报 2021-05-29

我来回答

如何在mapreduce中按键和值排序？

1条答案

相关问题

热门标签

最新问答