如何将外部python库添加到hdfs中?

csga3l58  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(422)

有没有办法,如何将这样的外部库添加到hdfs中?pyspark似乎需要外部lib才能将它们放在hdfs的共享文件夹中。byt因为我使用的是shellscript,它通过外部库运行pyspark脚本,所以它无法导入它们。
请看这里关于恐怖的帖子。

bjp0bcyl

bjp0bcyl1#

可以使用 --py-files 选项。您可以提供.py文件或.zip文件。
例如,使用spark提交:

spark-submit --master yarn --py-files ./hdfs.zip myJob.py

检查相应文件:提交申请

qmb5sa22

qmb5sa222#

我们在所有工作节点上安装了库。我们只在namenode上有。

相关问题