Impala 或Hive与Spark作为执行引擎?

i2loujxw  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(372)

我想设计从hdfs获取数据的web用户界面。我想使用存储在hdfs中的数据生成一些报告。我有自己的自定义报告格式。我正在编写restapi来获取数据。但是运行配置单元查询会带来延迟问题,因此我需要不同的方法来解决这个问题,我可以想到两种方法。
使用impala创建表。但我不确定是否支持 Impala 休息。
使用hive而不是mr使用spark作为执行引擎。
spark job server提供rest支持,并使用spark sql获取数据。
哪种方法合适?有没有更好的方法?任何人都可以帮忙,因为我在这方面很新。

093gszye

093gszye1#

如果延迟是主要考虑因素的话,我宁愿选择 Impala 。它致力于hdfs上的sql处理,而且做得很好。关于restapi和您正在实现的应用程序逻辑,这似乎是一个很好的例子

相关问题