hadoop级联:部分目录源代码tap

dxxyhpgq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(320)

我的数据结构如下:

+data
|-2014080700_00.txt
|-2014080700_01.txt
|-2014080701_00.txt
|- ...
|-2014080723_00.txt
|-2014080800_00.txt
|- ...
|-2014090800_00.txt

我知道我可以用 Tap 如下所示:

Tap inTap = new Hfs( new TextLine(), "/path/to/data");

但是我想要目录的特定部分,例如只在日期上归档 20140807 . 因此,它将包括所有带有前缀的文件 20140807 . 有什么方法可以通过级联实现吗?或者烫伤有什么办法吗?

j8ag8udp

j8ag8udp1#

我认为你不能用 Hfs ,但使用 GlobHfs .
请尝试以下操作:

Tap inTap = new GlobHfs( new TextLine(), "/path/to/data/", new GlobFilter("20140807*"));

这将创建一个globbing tap,使用“/path/to/data/”目录作为源,并使用 "20140807*" 全局模式传递给 GlobFilter .

相关问题