unhealth emr nodes“本地目录坏了:/mnt/yarn,/mnt3/yarn”

xvw2m8pv  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(460)

我有一个spark emr集群,有1个主节点和8个spot节点。今天所有的节点在运行一个作业时都死掉了,sparkshell也不能在以后进行评估。
单击hadoop控制台中显示错误的“不健康节点” 2/4 local-dirs are bad: /mnt/yarn,/mnt3/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers 这似乎与hadoop为什么报告“不健康的节点本地目录和日志目录是坏的”中的磁盘空间问题有关?所以我修改了yarn-site.xml,如下所述

<property>
   <name>yarn.nodemanager.disk-health-checker.enable</name>
   <value>false</value>
</property>

并重新启动相关服务,如更改conf设置后如何重新启动emr中的spark服务所述?。但是节点没有活着回来。

sudo stop hadoop-yarn-resourcemanager  
sudo start hadoop-yarn-resourcemanager 

sudo stop spark-history-server  
sudo start spark-history-server  

sudo status hadoop-yarn-resourcemanager
sudo status spark-history-server

aws控制台

hadoop控制台

从死节点

rur96b6h

rur96b6h1#

你们有终端保护吗?如果它在节点上,则无法自动终止并重新启动-请参阅https://docs.aws.amazon.com/emr/latest/managementguide/usingemr_terminationprotection.html

相关问题