java—一个mapreduce程序的输出，作为另一个mapreduce程序的输入

lpwwtiir 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(351)

我正在尝试一个简单的示例，其中一个mapreduce作业的输出应该是另一个mapreduce作业的输入。
流程应该是这样的： Mapper1 --> Reducer1 --> Mapper2 --> Reducer2 （mapper1的输出必须是reducer1的输入。reducer1的输出必须是mapper2的输入。mapper2的输出必须是reducer2的输入。reducer2的输出必须存储在输出文件中）。
如何将多个Map器和还原器添加到我的程序中，使流保持如上所示？
我需要使用链Map器或链减速器吗？如果有的话，我怎么用？

Java hadoop mapreduce reduce Mapper

来源：https://stackoverflow.com/questions/30852335/output-of-one-mapreduce-program-as-input-to-another-mapreduce-program

2条答案

按热度按时间

a0x5cqrl1#

我想你要找的是有控制的工作和有控制的工作。这正好符合你的目的。在单个驱动程序类中，可以构建相互依赖的多个作业。下面的代码可能会帮助您理解。

Job jobOne = Job(jobOneConf, "Job-1");
    FileInputFormat.addInputPath(jobOne, jobOneInput);
    FileOutputFormat.setOutputPath(jobOne, jobOneOutput);
    ControlledJob jobOneControl = new ControlledJob(jobOneConf);
    jobOneControl.setJob(jobOne);

    Job jobTwo = Job(jobTwoConf, "Job-2");
    FileInputFormat.addInputPath(jobTwo, jobOneOutput); // here we set the job-1's output as job-2's input
    FileOutputFormat.setOutputPath(jobTwo, jobTwoOutput); // final output
    ControlledJob jobTwoControl = new ControlledJob(jobTwoConf);
    jobTwoControl.setJob(jobTwo);

    JobControl jobControl = new JobControl("job-control");
    jobControl.add(jobOneControl);
    jobControl.add(jobTwoControl);
    jobTwoControl.addDependingJob(jobOneControl); // this condition makes the job-2 wait until job-1 is done

    Thread jobControlThread = new Thread(jobControl);
    jobControlThread.start();
    jobControlThread.join(); 

    /* The jobControl.allFinished() can also be used to wait until all jobs are done */

赞(0）回复(0）举报 2021-05-30

dy2hfwbg2#

为此，需要实现两个单独的mapreduce作业。第一个作业的结果需要写入一些持久性存储（如hdfs）并由第二个作业读取。sequenceoutputformat/inputformat常用于此。两个mapreduce作业都可以从同一个驱动程序执行。

赞(0）回复(0）举报 2021-05-30