java—当多个mapreduce作业链接起来时,每个作业的输出是否都写入hdfs?

but5z9lq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(252)

假设多个mapreduce作业是链接的,如下所示。

Map1-Reduce1 -> Map2-Reduce2 -> ... -> MapN-ReduceN

是否将每个mapreduce作业的输出写入hdfs?例如,map1-reduce1的输出是否会写入hdfs?如果map2-reduce2中的任务失败,map2-reduce2是否可以通过读取map1-reduce1的输出重新启动,该输出已经在hdfs中。

myss37ts

myss37ts1#

可以通过扩展 Configured 类并编写多个作业配置,即每个作业配置一个 M-R . 这个 outputpath 一个的 m-r 示例将作为第二个示例的输入。
是的,你可以用 oozie 从一个 MapR 到另一个via HDFS . 你应该结账 ChainMapper 类。

wr98u20j

wr98u20j2#

您可以使用oozie或springbatch,两者都适合您的解决方案。您可以将每个步骤的输出写入hdfs,并在下一个map reduce作业中读回。

相关问题