hadoop—hive中的增量方法

umuewwlo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(386)

我有一个如下的源表源表:day1:table
id值开始日期100 v1 2017-01-01 101 v2 2017-02-01
第1天数据应加载如下目标表id值开始日期结束日期100 v1 2017-01-01 2099-12-31 101 v2 2017-02-01 2099-12-31
在第2天,应根据条件source.value<>target.value插入新记录
新记录结束日期应为2099-12-31,前一行结束日期应更新为当前日期,如下表所示
id值开始日期结束日期100 v1 2017-01-01 2017-09-19 100 v2。2017-01-01 2099-12-31 101 v2 2017-02-01 2017-09-19 101 v3 2017-02-01 2099-12-31
请注意,源表将每天刷新。
请帮我把上面提到的目标表拿出来。

nxowjjhe

nxowjjhe1#

你应该考虑以下几点在最后确定和方法,如。。。
记录的数量非常巨大,使用hbase来存储数据,因为允许更新,并且构建配置单元外部表引用相同的配置单元外部表,我怀疑这是否会影响查询使用连接配置单元hbase表与大型配置单元hbase表,或者使用hdp建议的增量加载来存储较少的记录, https://hortonworks.com/blog/four-step-strategy-incremental-updates-hive/
出了问题怎么处理hdp方法的第四步是删除基表并用新数据重新创建。考虑到您在几天后发现了一个数据问题,如何删除基表?如果你有答案,那就采用hdp方法。
方法3:您选择第1点是因为hbase支持更新,而hive不支持更新(我想这是您的理解)。是的,你对旧Hive版本的理解是正确的。但是在启动hive0.14时可以使用更新
https://cwiki.apache.org/confluence/display/hive/languagemanual+dml#languagemanualdml-更新

相关问题