我最近在linux上安装了pyspark,导入pyspark时出现错误:
ModuleNotFoundError: No module named 'pyspark'
Pypark在我的“pip列表”中
我在.bashrc中添加了以下行:
export SPARK_HOME=~/Spark/spark-3.0.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.9-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
如果我从终端输入pyspark,它可以正常工作:
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 3.0.1
/_/
Using Python version 3.7.3 (default, Jul 25 2020 13:03:44)
SparkSession available as 'spark'.
在终端中,我可以完成所有的编码,它只是不从python脚本加载import pyspark。看起来我的环境变量没问题。
然后我键入:
import findspark
print(findspark.init())
它说;valueerror:找不到spark,请确保已设置spark\u home env或spark位于预期位置(例如,从自制安装)
1条答案
按热度按时间uyhoqukh1#
使用检查环境变量设置是否正确
或者在脚本中提供完整的路径