我有一个在yarn上运行的spark应用程序,偶尔对于一些应用程序,我会看到日志没有显示在yarn ui中。我看到日志聚合诊断告诉我,日志聚合在两个节点中成功完成,但在第三个节点中没有启动。但当我真的点击日志的时候-都是空的。我在资源管理器日志中看到以下消息:
INFO resourcemanager.RMAppManager - Max number of completed apps kept in state store met: maxCompletedAppsInStateStore = 1000, removing app <app_id> from state store.
yarn.resourcemanager.max-completed-applications配置是否负责从远程存储帐户中删除日志?
我还在节点管理器日志中看到以下警告:
Remote Root Log Dir [/app-logs] already exist, but with incorrect permissions. Expected: [rwxrwxrwt], Found: [rwxrwxrwx]. The cluster may have problems with multiple users.
我也不确定这是否会导致问题,因为我只看到一些日志丢失,而不是全部。
my-site.xml文件设置了以下相关属性:
<property>
<name>yarn.resourcemanager.max-completed-applications</name>
<value>1000</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
<property>
<name>yarn.nodemanager.log.retain-seconds</name>
<value>604800</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/app-logs</value>
</property>
<property>
<name>yarn.resourcemanager.max-completed-applications</name>
<value>1000</value>
</property>
如果我试着运行 yarn logs -applicationId
命令,我看到一条消息说rm中不存在应用程序id为的应用程序。这让我更加重视前面的消息,即从rm state store中删除应用程序是因为达到了最大应用程序数,但我只是想确认这是否也是从远程存储中删除日志的真正原因,因为从rm中删除与远程存储的关系并不是非常直观的。任何意见都将不胜感激。谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!