Apache Spark 尝试将python库从包含的zip文件导入到路径时未解析cfg文件

tzdcorbm 于 2022-11-16 发布在 Apache

关注(0)|答案(1)|浏览(123)

我使用Spark 2.4.0 + K8s集群部署模式+ python 3.5。
我将所有库打包到zip存档中，并将其发送到AWS S3，然后附加到上下文

sc = pyspark.SparkContext(appName=args.job_name, environment=environment)

sc.addPyFile('s3a://.../libs.zip')
sc.addPyFile('s3a://.../code.zip')

导入工作，我可以导入任何包。但如果我导入包，从包相关的文件夹中读取一些文件-我得到错误：
NotADirectoryError: [Errno 20] Not a directory: '/var/data/spark-ce45d34b-8d2f-4fd0-b3d6-d53ecede8ef1/spark-6ce9d14f-3d90-4c3c-ba2d-9dd6ddf32457/userFiles-08e6e9ec-03fa-447d-930f-bf1bd520f55a/libs.zip/airflow/config_templates/default_airflow.cfg'
我该怎么解决呢？
PS.使用sc.addFile('s3a:/..')和解压不起作用，因为spark在集群模式下运行。
最新消息：
我已经暂时解决了这个问题，通过安装所有的软件包，我需要的码头集装箱，我正在使用的Spark工人。

apache-spark

来源：https://stackoverflow.com/questions/53620517/cfg-file-not-resolved-when-trying-to-import-python-library-from-zip-included-to