我从来没有机会研究 Impala 。我刚开始读关于 Impala 的书。但我有一个基本的问题,我不清楚关于 Impala 。 Impala 有自己的恶魔,所以它也有自己的执行引擎,或者在mapr或其他执行引擎上工作。提前谢谢
kadbb4591#
是的,impala守护进程使用驻留的可用资源池运行内存中的sql,并由yarn或任何其他资源调度器管理。这是可以调整的。mapr是一个hadoop发行包——是的,它确实提供了impala作为更大捆绑包的一部分。
mwecs4sa2#
MapReduce 是一种以分布式并行模式处理大型数据集的设计模式。 Impala 是一个在ApacheHadoop上运行的开源大规模并行处理(mpp)查询引擎。 Impala 更像仓库吗 Hive 有自己的利弊 Hive .主要区别 Imapala 以及 mapreduce 是: Impala 不使用 mapreduce . 它是分开运行的 Impala daemon 它拆分查询并并行运行它们,并在最后合并结果集。 Impala 它的大部分操作都在内存中进行,磁盘i/o受到限制。 Impala 使用 hdfs 因为它的存储带来了可靠性和效率。它在内存中缓存尽可能多的查询结果。 Impala 支持新的文件格式,如 parquet ,这是一种列式文件格式。因此,如果您使用这种格式,那么对于大多数时间只访问少数列的查询,它会更快。
MapReduce
Impala
Hive
Imapala
mapreduce
Impala daemon
hdfs
parquet
2条答案
按热度按时间kadbb4591#
是的,impala守护进程使用驻留的可用资源池运行内存中的sql,并由yarn或任何其他资源调度器管理。这是可以调整的。
mapr是一个hadoop发行包——是的,它确实提供了impala作为更大捆绑包的一部分。
mwecs4sa2#
MapReduce
是一种以分布式并行模式处理大型数据集的设计模式。Impala
是一个在ApacheHadoop上运行的开源大规模并行处理(mpp)查询引擎。Impala
更像仓库吗Hive
有自己的利弊Hive
.主要区别
Imapala
以及mapreduce
是:Impala
不使用mapreduce
. 它是分开运行的Impala daemon
它拆分查询并并行运行它们,并在最后合并结果集。Impala
它的大部分操作都在内存中进行,磁盘i/o受到限制。Impala
使用hdfs
因为它的存储带来了可靠性和效率。它在内存中缓存尽可能多的查询结果。Impala
支持新的文件格式,如parquet
,这是一种列式文件格式。因此,如果您使用这种格式,那么对于大多数时间只访问少数列的查询,它会更快。