Hadoop2.2链mapreduce作业map->reducer->map->reducer

xmjla07d 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(368)

我有两个mapreduce作业，第一个reducer的输出是第二个mapper的输入：

Map1 -> Reduce1 -> Map2 -> Reduce2

现在呢 Map2 读取由输出的文件 Reduce1 . 所以呢 Map1 -> Reduce1 以及 Map2 -> Reduce2 是独立的。
它可以工作，但是如果reduce1的输出直接是map2的输入，那么它会更容易，而且我认为会更优化。
有办法吗？在这种情况下 Map2 只是一个身份Map器，所以如果我能：

Map1 -> Reduce1 -> Reduce2

reduce1、map2和reduce2具有相同的输入和输出类型。
谢谢！

Java hadoop mapreduce chaining

来源：https://stackoverflow.com/questions/21310594/hadoop-2-2-chain-mapreduce-jobs-map-reducer-map-reducer

1条答案

按热度按时间

gz5pxeao1#

根据我的理解，我可以告诉你以下几点（可能对你有帮助，也可能没有帮助，如果我错了请纠正我）：
1） map1->reduce1->直接Map到mapper2：因为优化是在spark集群计算框架中解决的（使用内存计算，避免对hdfs不必要的读/写）。
2）如果你想要像reducer1->reducer2这样的东西。您必须考虑如何在一个reducer中编写逻辑，但这里的问题是，它完全取决于您的需求我指的是要执行的键的聚合（更详细地说：reducer1接收相同的键集，只有u可以执行下一个聚合的任务）。
3）在hadoop中，协议是这样的：Map-->然后聚合，如果有下一个聚合，它必须来自userdefinedmapper/identitymapper。
希望这有帮助：）

赞(0）回复(0）举报 2021-06-03

我来回答

Hadoop2.2链mapreduce作业map->reducer->map->reducer

1条答案

相关问题

热门标签

最新问答