有没有办法,如何将这样的外部库添加到hdfs中?pyspark似乎需要外部lib才能将它们放在hdfs的共享文件夹中。byt因为我使用的是shellscript,它通过外部库运行pyspark脚本,所以它无法导入它们。请看这里关于恐怖的帖子。
bjp0bcyl1#
可以使用 --py-files 选项。您可以提供.py文件或.zip文件。例如,使用spark提交:
--py-files
spark-submit --master yarn --py-files ./hdfs.zip myJob.py
检查相应文件:提交申请
qmb5sa222#
我们在所有工作节点上安装了库。我们只在namenode上有。
2条答案
按热度按时间bjp0bcyl1#
可以使用
--py-files
选项。您可以提供.py文件或.zip文件。例如,使用spark提交:
检查相应文件:提交申请
qmb5sa222#
我们在所有工作节点上安装了库。我们只在namenode上有。