spark将Parquet写入hdfs在多节点上非常慢

fae0ux8s 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(442)

我和你相处得很好 --master local[*] ,
但是当我在我的多节点集群上运行spark submit时 --master ip of master:port --deploy-mode client ：我的应用程序运行良好，直到将hdfs写入parquet，它不会停止，没有错误消息，什么都没有，仍在运行。。我在应用程序中检测到阻塞部分，它是：

resultDataFrame.write.parquet(path)

我试过了

resultDataFrame.repartition(1).write.parquet(path)

但还是一样。。。
事先谢谢你的帮助

hadoop hdfs scala apache-spark parquet

来源：https://stackoverflow.com/questions/53638200/spark-write-parquet-to-hdfs-very-slow-on-multi-node

1条答案

按热度按时间

piv4azn71#

我可以看到你正在尝试使用主机作为本地[*]，这将运行Spark作业在本地模式，无法使用群集资源。
如果您在集群上运行spark作业，您可以查找spark提交选项，例如，masteras yarn和deploy mode is cluster，这里的命令如下所述。
spark submit--class**--master yarn--deploy mode cluster**--conf=…#其他选项[应用程序参数]
一旦您使用yarn master运行spark作业并将其部署为集群模式，它将尝试利用所有集群资源。

赞(0）回复(0）举报 2021-06-01

我来回答

spark将Parquet写入hdfs在多节点上非常慢

1条答案

相关问题

热门标签

最新问答