我的access日志数据库将时间存储为epoch,并将年月日提取为整数。此外,数据库的分区基于提取的y/m/d,我有35天的保留期。
如果我运行此查询:
select *
from mydb
where year in (2017, 2018)
and month in (12, 1)
and day in (31, 1)
在2018年1月29日,我将获得2017年12月31日和2018年1月1日的数据。
2018年1月5日,我将获取2017年12月1日、2017年12月31日和2018年1月1日的数据(不需要)
我也意识到我可以这样做:
select *
from mydb
where (year = 2017 and month = 12 and day = 31)
or (year = 2018 and month = 1 and day = 1)
但我真正想要的是:一个很好的方法来编写一个查询,其中我给出年、月、日作为起始值,然后给出第四个值(天数+),然后得到12/31/2017+5天的所有数据。
sql中是否有一种本地方法来实现这一点?我有一个庞大的数据集,如果我不指定日期,并且必须依赖于epoch来完成这项工作,那么查询将花费永远的时间。我对分区配置也没有影响。
1条答案
按热度按时间b4lqfgs41#
使用impala作为dbms和sql方言,您将能够使用公共表表达式,但不能使用递归。此外,在插入参数时也可能出现问题。
下面是一个未经测试的建议,它将要求您找到一些功能替代品。首先,它生成一组行,其整数范围为0到999(在本例中)。如果需要,可以很容易地扩展行数。从这些行中,可以使用
date_add(timestamp startdate, int days/interval expression)
然后是year(timestamp date)
以及month(timestamp date)
以及day(timestamp date)
请参见日期和时间函数创建与数据匹配所需的列。总的来说,您应该能够构建一个通用的表表达式,该表达式包含涵盖所需范围的年、月、日列,并且可以内部联接到源表,从而实现日期范围筛选器。
下面的代码是使用t-sql(sqlserver)生成的,可以在这里进行测试。
我认为这些是上述函数调用的impala等价物:
希望你能想出如何使用这些。最终目的是使用生成的日期范围,如下所示:
原岗位
在不知道要为哪个数据库提出解决方案的情况下,这里有一个使用sql server的建议:
这个建议涉及一个递归的公共表表达式,然后可以将它用作源数据的内部联接,从而将结果限制在一个日期范围内。
这将产生以下结果:
以及:
可以使用整数表来代替递归公共表表达式(或者使用一组联合的select查询来生成一组整数),通常称为计数表。选择的方法将取决于所使用的dbms类型和版本。
同样,根据数据库的不同,将上面看到的结果持久化为临时表并向其添加索引可能更有效。