通过impala分区跟踪时间变化

xnifntxz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(324)

在大数据环境中,按日期划分是否是跟踪数据时间变化的可行方法?我希望在rdbms中实现类似于缓慢变化维度的概念。让我们假设以下场景保持简单:

情景

我有一个hadoop集群,其中数据驻留在hdfs中,当前位于.csv文件中。我还想使用apacheimpala作为查询引擎。我们有这样一些客户数据:
编号、性别、头衔、名字、姓名、生日、街道、plz、城市、电话
1,弗劳,博士,珍妮,哈奇,1924年3月23日,str。7997230,达根菲尔德,093/38700
每天,新的数据都会通过.csv到达(就说每天都会有新的、完整的客户数据交付)。新数据必须集成到我们的存储系统中。

计划

我的想法是,我可以用交付的时间戳来丰富客户数据:
编号、性别、头衔、名字、姓名、生日、街道、plz、城市、电话、交货日期
1,弗劳,博士,珍妮,哈奇,1924年3月23日,str。7997230,达根菲尔德,093/3870020170814
然后,在创建相应的impala表时,我将只使用传递的时间戳对表进行分区。理论上,这将为我们提供一个完整的数据快照,我们可以在将来查询这些数据。
这将不会创建与scd2中相同的表结构,在scd2中我们有一个有效的时间跨度,但是通过查询不同的日期,我们可以看到,例如,名称更改的时间。
你认为这是分区的一个很好的用法,还是我的思想中已经有了一个目前看不到的缺陷?
将来可能还会有交付,每天提供的新数据只是更改/新值的增量。这可以通过将新数据与上一天的数据合并来处理,以发现变化和新条目。
我已经在这里读到了一些有趣的帖子:
在配置单元中对表进行分区和bucketing有什么区别?
缓慢变化的维度—在hive中实现scd1和scd2
Impala 如何支持分区?
我还观看了cloudera为hadoop专业人士举办的EDW101网络研讨会,但他们没有提到分区是一种处理时间变化的方法。
我对hadoop和impala的实践经验很少,所以我很欣赏每一个答案。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题