spark将Parquet写入hdfs在多节点上非常慢

fae0ux8s  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(442)

我和你相处得很好 --master local[*] ,
但是当我在我的多节点集群上运行spark submit时 --master ip of master:port --deploy-mode client :我的应用程序运行良好,直到将hdfs写入parquet,它不会停止,没有错误消息,什么都没有,仍在运行。。我在应用程序中检测到阻塞部分,它是:

resultDataFrame.write.parquet(path)

我试过了

resultDataFrame.repartition(1).write.parquet(path)

但还是一样。。。
事先谢谢你的帮助

piv4azn7

piv4azn71#

我可以看到你正在尝试使用主机作为本地[*],这将运行Spark作业在本地模式,无法使用群集资源。
如果您在集群上运行spark作业,您可以查找spark提交选项,例如,masteras yarn和deploy mode is cluster,这里的命令如下所述。
spark submit--class**--master yarn--deploy mode cluster**--conf=…#其他选项[应用程序参数]
一旦您使用yarn master运行spark作业并将其部署为集群模式,它将尝试利用所有集群资源。

相关问题