Impala 还是Hive?

e0uiprwp  于 2021-06-26  发布在  Impala
关注(0)|答案(1)|浏览(522)

情况-在cdh 5.2集群(16个节点,共享集群)的impala管理表中,每天大约有3000万行、价值2年的数据。
尝试建立一个每日聚合逻辑,其中一天的数据被引入并聚合,并且该过程在随后的几天中反复进行(穿过 Impala )
这是一个一次性过程,用于为整个2年窗口创建聚合,随后被其他工具使用。
我在想,这里的工具选择是否真的正确?我们不应该把这个任务交给hive来利用集群的能力吗(这样就可以相对容易地触发mapreduce和聚合)?
[编辑]
只是澄清一下,数据已经在impala表中了,我所指的聚合是在这个基础上完成的。我从解决方案的Angular 考虑的是,是否最好将这些数据赋给配置单元表(而不是impala表),然后让map reduce处理聚合?
基于 Impala 的聚合对我们来说真的很慢,尽管我们正在研究调整它,我想知道我们是否可以做一些不同的事情?

68bkxrlz

68bkxrlz1#

摄食是通过Hive完成的,但 Impala 会给你一个数量级的更好的阅读性能。因此,考虑一下,您的分析堆栈可以在impala上工作,而您的etl将保持在hive上。
在任何情况下,load/etl时间都不是面向用户的,而分析/查询确实具有延迟关键特性。

相关问题