pandas 无法在Yarn簇上导入prophet

aiqt4smr  于 2023-02-06  发布在  Yarn
关注(0)|答案(1)|浏览(276)

我正在寻找一个关于python DataPrediction.py运行良好的指南。但当我提交

spark-submit --master yarn --deploy-mode cluster --driver-memory 4g --num-executors 3 --executor-memory 3g --executor-cores 2 --queue default DataPrediction.py
Traceback (most recent call last):
  File "/mnt/vol1/hdata/nm-local-dir/usercache/ajit/appcache/application_1674580462889_0114/container_e14_1674580462889_0114_02_000001/DataPrediction.py", line 7, in <module>
    from prophet import Prophet
ModuleNotFoundError: No module named 'prophet'

请帮帮我现在该怎么办。

jdg4fx2g

jdg4fx2g1#

问题是prophet没有安装在你的yarn集群的机器上,有多种方法可以打包python模块并在spark job(venv,conda,pex...). Here is the official documentation中使用它们。
一种解决方案是使用venv。

python -m venv my_env
source my_env/bin/activate
pip install prophet venv-pack
venv-pack -o my_env.tar.gz

PYSPARK_PYTHON=./environment/bin/python spark-submit\
    --master yarn --deploy-mode cluster --queue default\
    --archives my_env.tar.gz#environment DataPrediction.py

相关问题