文件名为列-hadoop

pgx2nnw8 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(284)

我有日志文件，文件名中包含日期和小时。有没有一种方法可以从文件名中提取date&hour来在配置单元中添加额外的列，例如weblogs-20150101-010000.gz。
我知道的方法是使用map-only作业将日期和小时顺序地附加到每一行，但是我正在尝试通过hadoop流看看是否有一个更简单的方法。

Java hadoop Hive hadoop-partitioning hadoop-streaming

来源：https://stackoverflow.com/questions/30446074/filename-as-columns-hadoop

1条答案

按热度按时间

x6yk4ghg1#

如果查询性能很重要，并且要按日期/小时进行筛选，则可以通过将文件放置在包含日期属性的文件夹中来对数据进行分区，例如。 /path/to/your/data/year=2015/month=05/day=25/hour=14/ ，然后将这些分区添加到配置单元表中。
另一种方法是使用Hive的 INPUT__FILE__NAME 虚拟列和使用它的筛选器，例如。

SELECT * FROM WEBLOGS WHERE INPUT__FILE__NAME LIKE '%20150101-010000.gz'

赞(0）回复(0）举报 2021-06-03

我来回答

文件名为列-hadoop

1条答案

相关问题

热门标签

最新问答