我们正在试验hadoop和普通爬网的处理。
我们的问题是如果我们用1创建一个集群 Master
节点和1 Core
和2 Task
节点,每个组只有一个节点将获得高cpu/网络使用率。我们也试过了 Core
而且没有 Task
节点,但在本例中也只有一个 Core
已使用节点。
下面是节点/集群监视的一些屏幕截图。作业一直在运行(在前两个并行Map阶段),并且应该已经使用了大部分可用的cpu能力,正如您在工作表的屏幕截图中看到的那样 Task
节点。但为什么是闲置的 Task
节点未使用?
我们的hadoop工作,作为 Jar
步骤,对Map作业没有限制。它由多个链接的map/reduce步骤组成。最后一个减速机作业仅限于一个减速机。
截图:https://drive.google.com/drive/folders/1xwabyjmjac_b0ouvptq9lnsj12ttbxi1?usp=sharing
群集ID: j-3KAPYQ6UG9LU6
步骤ID: s-2LY748QDLFLM9
在另一次运行期间,我们在空闲节点的系统日志中发现以下内容,可能是emr问题?
ERROR main: Failed to fetch extraInstanceData from https://aws157-instance-data-1-prod-us-east-1.s3.amazonaws.com/j-2S62KOVL68GVK/ig-3QUKQSH7YJIAU.json?X-Amz-Algorithm=AWS4-HMAC-SHA256&X
你好,卢卡斯
1条答案
按热度按时间ffdz8vbo1#
聚会迟到了,但您是否尝试将这些属性设置为spark submit命令的一部分。