我正在尝试运行一个作业,其中每个Map器“type”接收不同的输入文件。我知道有一种方法可以通过java使用multipleinputs类来实现这一点,如下所示:
MultipleInputs.addInputPath(job,new Path(args[0]),TextInputFormat.class,CounterMapper.class);
MultipleInputs.addInputPath(job,new Path(args[1]),TextInputFormat.class,CountertwoMapper.class);
其中countermapper.class和countertwomapper.class是各自的Map器“类型”。
我正在尝试用mrjob for python或任何其他非java语言(请不要问为什么!)实现类似的功能。
这张图和我想达到的效果很相似。
感谢您的帮助。
1条答案
按热度按时间13z8s7eq1#
我发现了一种方法,不同的Map器可以关联到一个单一的输入路径,这并不完全回答你的问题,但希望它能帮助你。在下面的链接中
在hadoop上的一个流作业中使用多个Map器输入?