impalad必须在datanode上运行吗?

uttx8gqw  于 2021-06-26  发布在  Impala
关注(0)|答案(1)|浏览(408)

一点背景:
我已经在AmazonEMR4.1上运行了Impala2.2(这本身就是一个非常头痛的问题)——有1个主节点、3个核心节点和3个任务节点。
在与aws解决方案架构师讨论之后,我们的理解是,我们可以拥有一个长时间运行的“核心集群”,其中主节点和核心节点组成持久的hdfs存储。然后,我们可以根据需要添加适当数量的任务节点,这些节点将在我们提交的作业中快速移动,然后再次关闭。
问题是:
我们看到的问题是tasks节点没有参与大多数查询,比如那些涉及computestats的查询。
这是 Impala 的行为还是 Impala 的电子病历行为?
impala有远程读取的概念,那么有没有办法放宽在处理中包含非datanode的标准呢?

n7taea2i

n7taea2i1#

impala确实希望位于datanodes上,这对于通过在每个节点上本地读取hdfs来提高性能至关重要。

相关问题