哪些文件作为mapper的输入被忽略?

ryoqjall  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(411)

我正在链接多个mapreduce作业,并希望传递/存储一些元信息(例如,配置或原始输入的名称)和结果。至少要忽略文件“\u success”和目录“\u logs”中的任何内容。
是否有任何文件名模式在默认情况下被 InputReader ? 或者这只是一个固定的限制名单?

h6my8fg2

h6my8fg21#

这个 FileInputFormat 默认情况下使用以下hiddenfilefilter:

private static final PathFilter hiddenFileFilter = new PathFilter(){
      public boolean accept(Path p){
        String name = p.getName(); 
        return !name.startsWith("_") && !name.startsWith("."); 
      }
    };

所以如果你用任何 FileInputFormat (例如 TextInputFormat , KeyValueTextInputFormat , SequenceFileInputFormat ),隐藏文件(文件名以“\”或“.”开头)将被忽略。
可以使用fileinputformat.setinputpathfilter设置自定义 PathFilter . 记住 hiddenFileFilter 始终处于活动状态。

相关问题