使用自定义fileinputformat

ffx8fchx  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(421)

如何创建自定义fileinputformat,将文件作为单个记录发送到Map器请帮助我使用自定义fileinputformat的示例

yhqotfr8

yhqotfr81#

要使用具有以下替代的自定义文件输入格式:

@Override
        protected boolean isSplitable(JobContext context, Path filename) {
            return false;
        }

hadoop源代码中有一个例子multifilewordcount。在该示例中,您需要将上面重写的“issplitable”方法添加到“custominputformat”以避免拆分。
下面是如何将“issplitable”合并到multifilewordcount示例中的要点;使用vanilla hadoop api。

相关问题