我编写了一个mapreduce程序(mapper.py和reducer.py)来处理hadoop中的pagerank问题。
我想迭代mapreduce大约10次。如何将第一轮mapreduce的输出转换为第二轮mapreduce的输入?
1 2 10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result
1条答案
按热度按时间esbemjvw1#
只需将job1的输出作为job2的输入进行链接即可。
输入目录1->输出目录1->输出目录2…->outputdir9->outputdir10