假设多个mapreduce作业是链接的,如下所示。
Map1-Reduce1 -> Map2-Reduce2 -> ... -> MapN-ReduceN
是否将每个mapreduce作业的输出写入hdfs?例如,map1-reduce1的输出是否会写入hdfs?如果map2-reduce2中的任务失败,map2-reduce2是否可以通过读取map1-reduce1的输出重新启动,该输出已经在hdfs中。
myss37ts1#
可以通过扩展 Configured 类并编写多个作业配置,即每个作业配置一个 M-R . 这个 outputpath 一个的 m-r 示例将作为第二个示例的输入。是的,你可以用 oozie 从一个 MapR 到另一个via HDFS . 你应该结账 ChainMapper 类。
Configured
M-R
outputpath
m-r
oozie
MapR
HDFS
ChainMapper
wr98u20j2#
您可以使用oozie或springbatch,两者都适合您的解决方案。您可以将每个步骤的输出写入hdfs,并在下一个map reduce作业中读回。
2条答案
按热度按时间myss37ts1#
可以通过扩展
Configured
类并编写多个作业配置,即每个作业配置一个M-R
. 这个outputpath
一个的m-r
示例将作为第二个示例的输入。是的,你可以用
oozie
从一个MapR
到另一个viaHDFS
. 你应该结账ChainMapper
类。wr98u20j2#
您可以使用oozie或springbatch,两者都适合您的解决方案。您可以将每个步骤的输出写入hdfs,并在下一个map reduce作业中读回。