我在客户端部署模式,我想提交一个由 tar.gz 包含运行时、代码和库的。其目的不是依赖于特定python运行时的spark cluster(例如spark cluster有python3.5版本,而我的代码需要3.7版本)或集群上未安装的库。我发现可以提交python文件以及 .jar 文件。
tar.gz
.jar
tpxzln5u1#
使用venv将python的虚拟环境版本用于pyspark作业。设置venv后的命令:
spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>
看看:将virtualenv与pyspark一起使用
1条答案
按热度按时间tpxzln5u1#
使用venv将python的虚拟环境版本用于pyspark作业。
设置venv后的命令:
看看:将virtualenv与pyspark一起使用