当我使用spark submit with master yarn和deploy mode cluster提交spark作业时,它不会打印/返回任何applicationid,作业完成后,我必须手动检查mapreduce jobhistory或spark historyserver以获取作业详细信息。
我的集群被许多用户使用,在jobhistory/historyserver中发现我的作业需要很多时间。
有没有办法配置 spark-submit
返回应用程序ID?
注意:我发现了许多类似的问题,但是他们的解决方案使用 sparkcontext.applicationId
如果是 master yarn and deploy-mode cluster
驱动程序还作为mapreduce作业的一部分运行,任何日志或sysout都打印到远程主机日志。
1条答案
按热度按时间pxq42qpu1#
以下是我用来实现这一目标的方法:
将应用程序id保存到hdfs文件(@zhangtong在评论中建议)。
从驱动程序发送带有applictionid的电子邮件警报。