如何循环通过配置单元查询并使用循环变量

kr98yfug  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(433)

假设我有两张table

External table - etable

Internal table - itable

我的表是根据日期划分的。
现在,为了每天从etable的数据填充我的itable,我在hue中设置了工作流和协调器,配置单元查询如下所示:

ALTER TABLE etable ADD IF NOT EXISTS PARTITION (date = '${date}') LOCATION 'path/date=${date}';

INSERT OVERWRITE TABLE itable partition(date = '${date}') SELECT * FROM etable WHERE date = '${date}';

现在假设我每天都想更新过去的数据 n 天,我该怎么做?
例如
我们走吧 n = 2 如果协调人计划今天运行,即。 2018-01-20 (yyyy-mm-dd)然后它应该更新过去的数据 2 天。所以查询应该更新 2018-01-20 以及 2018-01-19 . 所以基本上我需要用不同的日期运行上面的查询两次。
有没有办法循环这个查询 n 使用循环变量,因为这样我就可以使用 date_sub() 在循环的每次迭代中获得不同的日期。还是有更好的办法?
谢谢您。

42fyovps

42fyovps1#

你应该能做到`

INSERT OVERWRITE TABLE itable partition(`date`) 
SELECT * FROM etable
WHERE `date` BETWEEN datesub('${date}', ${n}) AND '${date}'

不管怎样,Hive没有环。hue和oozie也无法做到这一点,因为您正在尝试动态构建查询
这样做需要使用bash循环 beeline -u jdbc:hive2://server:10000 --hivevar date="value" -f script.sql 或者您可以使用python、java或任何您熟悉的工具来编写循环,只要它可以与hive通信。
然后,您可以使用oozie来调度该脚本/代码

相关问题