在spark集群模式下从工作节点到文件的控制台输出

nwlls2ji  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(330)

我在经营一家公司 pyspark 脚本使用 spark-submit . 作业成功运行。
现在,我尝试将此作业的控制台输出收集到如下所示的文件中。 spark-submit in yarn-client mode ```
spark-submit --master yarn-client --num-executors 5 --executor-cores 5 --driver-memory 5G --executor-memory 10G --files /usr/hdp/current/spark-client/conf/hive-site.xml --jars /usr/hdp/current/spark-client/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client/lib/datanucleus-rdbms-3.2.9.jar,/usr/hdp/current/spark-client/lib/datanucleus-core-3.2.10.jar --py-files customer_profile/customer_helper.py#customer_helper.py,customer_profile/customer_json.json customer_profile/customer.py > /home/$USER/logs/customer_2018_10_26 2>&1

我能够重定向所有写入文件的控制台输出 `/home/$USER/logs/customer_2018_10_26` 包括所有
loglevels and any stacktrace errors `spark-submit in yarn-cluster mode` ```
spark-submit --master yarn-cluster --num-executors 5 --executor-cores 5 --driver-memory 5G --executor-memory 10G --files /usr/hdp/current/spark-client/conf/hive-site.xml --jars /usr/hdp/current/spark-client/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client/lib/datanucleus-rdbms-3.2.9.jar,/usr/hdp/current/spark-client/lib/datanucleus-core-3.2.10.jar --py-files customer_profile/customer_helper.py#customer_helper.py,customer_profile/customer_json.json customer_profile/customer.py  > /home/$USER/logs/customer_2018_10_26 2>&1

使用 yarn-cluster 模式i无法重定向写入文件的控制台输出 /home/$USER/logs/customer_2018_10_26 .
问题是如果我的工作失败了 yarn-client 模式我可以去文件 /home/$USER/logs/customer_2018_10_26 很容易找出错误。
但如果我的工作失败了 yarn-cluster 模式,则我不获取要复制到文件的堆栈跟踪 /home/$USER/logs/customer_2018_10_26 . 我调试错误的唯一方法是使用 yarn logs .
我想避免使用 yarn logs 我想看看 error stack trace 在文件中 /home/$USER/logs/customer_2018_10_26 使用时自身 yarn-cluster 模式。
我怎样才能做到这一点?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题