如何在长时间运行的emr集群中排除故障并恢复丢失的节点?节点几天前停止了报告。主机似乎很好,hdfs也不错。我只在hadoop应用程序ui中注意到了这个问题。
q5lcpyga1#
emr节点是短暂的,一旦它们被标记为丢失,就无法恢复它们。您可以通过在集群启动期间启用“终止保护”功能来避免这种情况。关于查找丢失节点的原因,您可以检查集群的yarn resourcemanager日志和/或示例控制器日志,以了解有关根本原因的更多信息。
1条答案
按热度按时间q5lcpyga1#
emr节点是短暂的,一旦它们被标记为丢失,就无法恢复它们。您可以通过在集群启动期间启用“终止保护”功能来避免这种情况。
关于查找丢失节点的原因,您可以检查集群的yarn resourcemanager日志和/或示例控制器日志,以了解有关根本原因的更多信息。