spark程序集文件已上载，尽管spark.yarn.conf已设置

yvfmudvl 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(339)

我使用spark submit将作业提交到运行在yarn上的spark集群，有时通过一个相对较慢的连接。为了避免为每个作业上载156mbspark程序集文件，我设置了配置选项 spark.yarn.jar 到hdfs上的文件。但是，这并不能避免上载，而是从hdfs spark目录获取程序集文件并将其复制到应用程序目录：

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]    
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

我原以为程序集文件应该在hdfs中复制，但实际上它似乎又被下载和上传了，这是非常适得其反的。有什么提示吗？

hadoop hdfs yarn apache-spark

来源：https://stackoverflow.com/questions/31254320/spark-assembly-file-uploaded-despite-spark-yarn-conf-being-set

1条答案

按热度按时间

vwoqyblh1#

两个hdf必须是同一个系统。请参见此处的相关代码：
https://github.com/apache/spark/blob/37bf76a2de2143ec6348a3d43b782227849520cc/yarn/src/main/scala/org/apache/spark/deploy/yarn/client.scala#l1308
https://github.com/apache/spark/blob/master/yarn/src/main/scala/org/apache/spark/deploy/yarn/client.scala#l1308
为什么不能在nameservice1hdfs上使用spark程序集jar呢？

赞(0）回复(0）举报 2021-05-30

我来回答

spark程序集文件已上载，尽管spark.yarn.conf已设置

1条答案

相关问题

热门标签

最新问答