限制hadoop中的Map器和还原器

z9gpfhce  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

我在一个安全项目,需要限制Map和还原访问。
在wordcount示例中,我有5个文件。我将文件的第3组作为第1组,其余的2个文件作为第2组。所有group1文件都应转到群集中的同一节点,所有group2文件都应转到同一节点。我该怎么做?
我开始看源代码,但不知道从哪里开始。任何关于如何做到这一点或从哪里开始的建议都会非常有帮助。

pxyaymoc

pxyaymoc1#

你可以使用多个输入。
对于第一组,你可以这样做。

MultipleInputs.addInputPath(job,'file/path',FileInputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file1/path',File1InputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file2/path',File2InputFormatClass,Mapper1.class);

第2组

MultipleInputs.addInputPath(job,'file3/path',File3InputFormatClass,Mapper2.class);
MultipleInputs.addInputPath(job,'file4/path',File4InputFormatClass,Mapper2.class);

相关问题