hive和impala集成可能吗?

flseospp  于 2021-05-31  发布在  Hadoop
关注(0)|答案(3)|浏览(415)

Hive 以及 Impala 整合可能吗?
在hive中进行数据处理后,我想将结果数据存储在impala中以便更好地读取,是否可能?
如果是,请分享一个例子。

ubof19bj

ubof19bj1#

hive和impala是两个不同的查询引擎。每个查询引擎在其体系结构和性能方面都是独特的。我们可以使用hivemetastore获取元数据,并使用impala运行查询。常见的用例是从tableau连接impala/hive。如果我们是从表中可视化Hive,我们可以得到最新的数据,而无需任何工作。如果我们继续加载数据,元数据也会更新。 Impala 没有意识到这些变化。因此,我们应该通过连接impalad来运行metadata invalidate查询,以刷新其状态并与metastore中可用的最新信息同步。这样,当用户使用impala引擎从tableau运行相同的查询时,将得到与hive相同的结果。
现在没有可用于定期运行此无效查询的配置参数。这个博客读起来不错,可以定期通过oozie调度器执行元数据失效查询来处理这些问题,或者我们可以从服务器本身设置一个cronjob。

jchrr9hc

jchrr9hc2#

impala使用hive元存储读取数据。一旦在hive中创建了一个表,就可以使用impala读取和查询相同的表。您所需要的只是刷新表或触发impala中的invalidatemetadata来读取数据。
希望这有帮助:)

sycxhyv7

sycxhyv73#

Hive和 Impala 都不存储任何数据。数据存储在hdfs位置,而hive和impala都只是用来可视化/转换hdfs中的数据。
所以,是的,您可以使用hive处理数据,然后使用impala读取数据,因为这两个配置都已正确设置。但是由于需要刷新impala,因此需要运行invalidatemetadata和refresh命令

相关问题