我有一个关于在下面定义的需求中调整配置单元查询的查询;我想不通。
案例:数据仅在工作日生成,即工作日和非节假日日期。我在Hive中加载的数据。源和目标都是hdf。
严格的流程:每天都要复制数据。所以,对于星期六和星期天,我将复制星期五的相同数据。公共假日也是如此。
当前进程:现在我正在手动执行它来加载周末的数据。
要求:我需要在查询本身中自动执行。
有什么建议吗?如果可行的话,spark中的解决方案也是受欢迎的。
我有一个关于在下面定义的需求中调整配置单元查询的查询;我想不通。
案例:数据仅在工作日生成,即工作日和非节假日日期。我在Hive中加载的数据。源和目标都是hdf。
严格的流程:每天都要复制数据。所以,对于星期六和星期天,我将复制星期五的相同数据。公共假日也是如此。
当前进程:现在我正在手动执行它来加载周末的数据。
要求:我需要在查询本身中自动执行。
有什么建议吗?如果可行的话,spark中的解决方案也是受欢迎的。
1条答案
按热度按时间xcitsw881#
虽然很清楚问题是什么,但当你说“在查询本身中”时就不清楚了。
两种选择
查询结果时,使用标量子查询(使用impala)查找数据,该查询首先查找相对于给定select日期的max date,即max小于或等于给定seldct date;因此没有复制。
否则使用scheduling和when scheduled a)通过linux或sql检查周末日期b)维护假日日期表并检查是否存在。如果其中一个或两个条件都为真,则根据项目符号1从现有数据复制,其中选择日期为今天,否则进行常规处理。
注意:由于某些错误,您可能需要假设您正在运行进程以赶上进度。意味着一些控制逻辑,但更稳健。