如何在pyspark中提交tar.gz文件

w1jd8yoj  于 2021-05-26  发布在  Spark
关注(0)|答案(1)|浏览(492)

我在客户端部署模式,我想提交一个由 tar.gz 包含运行时、代码和库的。
其目的不是依赖于特定python运行时的spark cluster(例如spark cluster有python3.5版本,而我的代码需要3.7版本)或集群上未安装的库。
我发现可以提交python文件以及 .jar 文件。

tpxzln5u

tpxzln5u1#

使用venv将python的虚拟环境版本用于pyspark作业。
设置venv后的命令:

spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true  --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>

看看:将virtualenv与pyspark一起使用

相关问题