我有一个spark emr集群,有1个主节点和8个spot节点。今天所有的节点在运行一个作业时都死掉了,sparkshell也不能在以后进行评估。
单击hadoop控制台中显示错误的“不健康节点” 2/4 local-dirs are bad: /mnt/yarn,/mnt3/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers
这似乎与hadoop为什么报告“不健康的节点本地目录和日志目录是坏的”中的磁盘空间问题有关?所以我修改了yarn-site.xml,如下所述
<property>
<name>yarn.nodemanager.disk-health-checker.enable</name>
<value>false</value>
</property>
并重新启动相关服务,如更改conf设置后如何重新启动emr中的spark服务所述?。但是节点没有活着回来。
sudo stop hadoop-yarn-resourcemanager
sudo start hadoop-yarn-resourcemanager
sudo stop spark-history-server
sudo start spark-history-server
sudo status hadoop-yarn-resourcemanager
sudo status spark-history-server
aws控制台
hadoop控制台
从死节点
1条答案
按热度按时间rur96b6h1#
你们有终端保护吗?如果它在节点上,则无法自动终止并重新启动-请参阅https://docs.aws.amazon.com/emr/latest/managementguide/usingemr_terminationprotection.html