我在经营一家公司 pyspark
脚本使用 spark-submit
. 作业成功运行。
现在,我尝试将此作业的控制台输出收集到如下所示的文件中。 spark-submit in yarn-client mode
```
spark-submit --master yarn-client --num-executors 5 --executor-cores 5 --driver-memory 5G --executor-memory 10G --files /usr/hdp/current/spark-client/conf/hive-site.xml --jars /usr/hdp/current/spark-client/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client/lib/datanucleus-rdbms-3.2.9.jar,/usr/hdp/current/spark-client/lib/datanucleus-core-3.2.10.jar --py-files customer_profile/customer_helper.py#customer_helper.py,customer_profile/customer_json.json customer_profile/customer.py > /home/$USER/logs/customer_2018_10_26 2>&1
我能够重定向所有写入文件的控制台输出 `/home/$USER/logs/customer_2018_10_26` 包括所有
loglevels and any stacktrace errors `spark-submit in yarn-cluster mode` ```
spark-submit --master yarn-cluster --num-executors 5 --executor-cores 5 --driver-memory 5G --executor-memory 10G --files /usr/hdp/current/spark-client/conf/hive-site.xml --jars /usr/hdp/current/spark-client/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client/lib/datanucleus-rdbms-3.2.9.jar,/usr/hdp/current/spark-client/lib/datanucleus-core-3.2.10.jar --py-files customer_profile/customer_helper.py#customer_helper.py,customer_profile/customer_json.json customer_profile/customer.py > /home/$USER/logs/customer_2018_10_26 2>&1
使用 yarn-cluster
模式i无法重定向写入文件的控制台输出 /home/$USER/logs/customer_2018_10_26
.
问题是如果我的工作失败了 yarn-client
模式我可以去文件 /home/$USER/logs/customer_2018_10_26
很容易找出错误。
但如果我的工作失败了 yarn-cluster
模式,则我不获取要复制到文件的堆栈跟踪 /home/$USER/logs/customer_2018_10_26
. 我调试错误的唯一方法是使用 yarn logs
.
我想避免使用 yarn logs
我想看看 error stack trace
在文件中 /home/$USER/logs/customer_2018_10_26
使用时自身 yarn-cluster
模式。
我怎样才能做到这一点?
暂无答案!
目前还没有任何答案,快来回答吧!