如何创建自定义fileinputformat,将文件作为单个记录发送到Map器请帮助我使用自定义fileinputformat的示例
yhqotfr81#
要使用具有以下替代的自定义文件输入格式:
@Override protected boolean isSplitable(JobContext context, Path filename) { return false; }
hadoop源代码中有一个例子multifilewordcount。在该示例中,您需要将上面重写的“issplitable”方法添加到“custominputformat”以避免拆分。下面是如何将“issplitable”合并到multifilewordcount示例中的要点;使用vanilla hadoop api。
1条答案
按热度按时间yhqotfr81#
要使用具有以下替代的自定义文件输入格式:
hadoop源代码中有一个例子multifilewordcount。在该示例中,您需要将上面重写的“issplitable”方法添加到“custominputformat”以避免拆分。
下面是如何将“issplitable”合并到multifilewordcount示例中的要点;使用vanilla hadoop api。