我想知道是否有可能定义一个层次化的mapreduce作业?。换句话说,我希望有一个map reduce作业,在mapper阶段将调用一个不同的map reduce作业。有可能吗?你有什么建议怎么做吗?我想这样做是为了在我的程序中有额外的并行/分布级别。谢谢,阿里克。
kninwzqo1#
我想你需要一个工具。oozie使用xml文件帮助定义工作流。
qlzsbp2j2#
你应该尝试级联。它允许您通过多个步骤定义相当复杂的作业。
x4shl7ld3#
hadoop权威指南包含许多与mapreduce作业链相关的方法,包括示例代码和详细说明。尤其是像“高级api用法”之类的章节。我个人成功地用几个hbase表代替了复杂的map reduce作业,这些表是手工制作的 TableInputFormat 分机。结果是输入格式结合了源数据和最小的减少,所以工作转化为单一的Map步骤。所以我建议你也朝这个方向看。
TableInputFormat
3条答案
按热度按时间kninwzqo1#
我想你需要一个工具。oozie使用xml文件帮助定义工作流。
qlzsbp2j2#
你应该尝试级联。它允许您通过多个步骤定义相当复杂的作业。
x4shl7ld3#
hadoop权威指南包含许多与mapreduce作业链相关的方法,包括示例代码和详细说明。尤其是像“高级api用法”之类的章节。
我个人成功地用几个hbase表代替了复杂的map reduce作业,这些表是手工制作的
TableInputFormat
分机。结果是输入格式结合了源数据和最小的减少,所以工作转化为单一的Map步骤。所以我建议你也朝这个方向看。