Yarn自动检测失败

ztigrdn8  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(307)

这是我在哪儿也找不到的东西。
我和一些奴隶有一个纺纱团。当一个从属服务器失败时(混乱猴子、缩小规模等),resourcemanager不会“得到它”。甚至一个 rmadmin -refreshNodes 无法修复。resourcemanager将失败的节点列为 RUNNING . 我该怎么做才能让resourcemanager检查从属服务器的运行状况并在它们失败时将其删除?

4nkexdtk

4nkexdtk1#

请参阅hadoop权威指南,第10章,维护,调试和退役节点。看起来您正在尝试使用上述命令更新jobtracker。这里提到了更详细的过程,包括更新名称节点、验证webui中的进度以及从include文件和从属文件中删除节点

相关问题