假设我有两张table
External table - etable
Internal table - itable
我的表是根据日期划分的。
现在,为了每天从etable的数据填充我的itable,我在hue中设置了工作流和协调器,配置单元查询如下所示:
ALTER TABLE etable ADD IF NOT EXISTS PARTITION (date = '${date}') LOCATION 'path/date=${date}';
INSERT OVERWRITE TABLE itable partition(date = '${date}') SELECT * FROM etable WHERE date = '${date}';
现在假设我每天都想更新过去的数据 n
天,我该怎么做?
例如
我们走吧 n = 2
如果协调人计划今天运行,即。 2018-01-20
(yyyy-mm-dd)然后它应该更新过去的数据 2
天。所以查询应该更新 2018-01-20
以及 2018-01-19
. 所以基本上我需要用不同的日期运行上面的查询两次。
有没有办法循环这个查询 n
使用循环变量,因为这样我就可以使用 date_sub()
在循环的每次迭代中获得不同的日期。还是有更好的办法?
谢谢您。
1条答案
按热度按时间42fyovps1#
你应该能做到`
不管怎样,Hive没有环。hue和oozie也无法做到这一点,因为您正在尝试动态构建查询
这样做需要使用bash循环
beeline -u jdbc:hive2://server:10000 --hivevar date="value" -f script.sql
或者您可以使用python、java或任何您熟悉的工具来编写循环,只要它可以与hive通信。然后,您可以使用oozie来调度该脚本/代码