emr hadoop不使用所有集群节点

1hdlvixo 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(379)

我们正在试验hadoop和普通爬网的处理。
我们的问题是如果我们用1创建一个集群 Master 节点和1 Core 和2 Task 节点，每个组只有一个节点将获得高cpu/网络使用率。我们也试过了 Core 而且没有 Task 节点，但在本例中也只有一个 Core 已使用节点。
下面是节点/集群监视的一些屏幕截图。作业一直在运行（在前两个并行Map阶段），并且应该已经使用了大部分可用的cpu能力，正如您在工作表的屏幕截图中看到的那样 Task 节点。但为什么是闲置的 Task 节点未使用？
我们的hadoop工作，作为 Jar 步骤，对Map作业没有限制。它由多个链接的map/reduce步骤组成。最后一个减速机作业仅限于一个减速机。
截图：https://drive.google.com/drive/folders/1xwabyjmjac_b0ouvptq9lnsj12ttbxi1?usp=sharing
群集ID: j-3KAPYQ6UG9LU6 步骤ID： s-2LY748QDLFLM9 在另一次运行期间，我们在空闲节点的系统日志中发现以下内容，可能是emr问题？

ERROR main: Failed to fetch extraInstanceData from https://aws157-instance-data-1-prod-us-east-1.s3.amazonaws.com/j-2S62KOVL68GVK/ig-3QUKQSH7YJIAU.json?X-Amz-Algorithm=AWS4-HMAC-SHA256&X

你好，卢卡斯

hadoop mapreduce amazon-web-services emr

来源：https://stackoverflow.com/questions/47911012/emr-hadoop-does-not-utilize-all-cluster-nodes

1条答案

按热度按时间

ffdz8vbo1#

聚会迟到了，但您是否尝试将这些属性设置为spark submit命令的一部分。

--conf 'spark.dynamicAllocation.enabled=true' 
--conf 'spark.dynamicAllocation.minExecutors=<MIN_NO_OF_CORE_OR_TASK_NODES_YOU_WANT>'

赞(0）回复(0）举报 2021-05-29

我来回答

emr hadoop不使用所有集群节点

1条答案

相关问题

热门标签

最新问答