我在项目中使用bigdata来缩短etl执行所需的操作时间。
我想了解ClouderaImpala框架是内存密集型的,因为它返回结果的速度非常快,比hive和pig快得多。
我有一个数据集,比如说2000-3000万条记录,我执行一个impala查询操作,比如groupby和joins
所以你建议使用 Impala ,因为它是更快或使用Hive。我的全部意图是缩短我的etl操作时间,它现在正在使用oracle。。
请就内存使用提出建议,是否建议。。。
此外,如果有任何链接,我们来了解 Impala 如何工作,以及它如何使用它的记忆将是非常有帮助的。
谢谢。!!!!!
1条答案
按热度按时间hlswsv351#
Impala 绝对是记忆密集型的,比Hive和Pig快得多。对于3000万条记录,hive将比您使用的oracle运行得更快。如果你有足够的内存资源,硬件,如果你没有其他消耗内存的进程,impala是最好的工具。
http://www.cloudera.com/content/cloudera/en/documentation/cloudera-impala/latest/topics/impala_cluster_sizing.html
这篇文章解释了 Impala 的内存需求