我正在链接多个mapreduce作业,并希望传递/存储一些元信息(例如,配置或原始输入的名称)和结果。至少要忽略文件“\u success”和目录“\u logs”中的任何内容。是否有任何文件名模式在默认情况下被 InputReader ? 或者这只是一个固定的限制名单?
InputReader
h6my8fg21#
这个 FileInputFormat 默认情况下使用以下hiddenfilefilter:
FileInputFormat
private static final PathFilter hiddenFileFilter = new PathFilter(){ public boolean accept(Path p){ String name = p.getName(); return !name.startsWith("_") && !name.startsWith("."); } };
所以如果你用任何 FileInputFormat (例如 TextInputFormat , KeyValueTextInputFormat , SequenceFileInputFormat ),隐藏文件(文件名以“\”或“.”开头)将被忽略。可以使用fileinputformat.setinputpathfilter设置自定义 PathFilter . 记住 hiddenFileFilter 始终处于活动状态。
TextInputFormat
KeyValueTextInputFormat
SequenceFileInputFormat
PathFilter
hiddenFileFilter
1条答案
按热度按时间h6my8fg21#
这个
FileInputFormat
默认情况下使用以下hiddenfilefilter:所以如果你用任何
FileInputFormat
(例如TextInputFormat
,KeyValueTextInputFormat
,SequenceFileInputFormat
),隐藏文件(文件名以“\”或“.”开头)将被忽略。可以使用fileinputformat.setinputpathfilter设置自定义
PathFilter
. 记住hiddenFileFilter
始终处于活动状态。