我和你相处得很好 --master local[*]
,
但是当我在我的多节点集群上运行spark submit时 --master ip of master:port --deploy-mode client
:我的应用程序运行良好,直到将hdfs写入parquet,它不会停止,没有错误消息,什么都没有,仍在运行。。我在应用程序中检测到阻塞部分,它是:
resultDataFrame.write.parquet(path)
我试过了
resultDataFrame.repartition(1).write.parquet(path)
但还是一样。。。
事先谢谢你的帮助
1条答案
按热度按时间piv4azn71#
我可以看到你正在尝试使用主机作为本地[*],这将运行Spark作业在本地模式,无法使用群集资源。
如果您在集群上运行spark作业,您可以查找spark提交选项,例如,masteras yarn和deploy mode is cluster,这里的命令如下所述。
spark submit--class**--master yarn--deploy mode cluster**--conf=…#其他选项[应用程序参数]
一旦您使用yarn master运行spark作业并将其部署为集群模式,它将尝试利用所有集群资源。