hadoop emr集群中的“丢失”节点

ljo96ir5  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(698)

如何在长时间运行的emr集群中排除故障并恢复丢失的节点?
节点几天前停止了报告。主机似乎很好,hdfs也不错。我只在hadoop应用程序ui中注意到了这个问题。

q5lcpyga

q5lcpyga1#

emr节点是短暂的,一旦它们被标记为丢失,就无法恢复它们。您可以通过在集群启动期间启用“终止保护”功能来避免这种情况。
关于查找丢失节点的原因,您可以检查集群的yarn resourcemanager日志和/或示例控制器日志,以了解有关根本原因的更多信息。

相关问题