当我尝试在EMR无服务器上运行作业时,出现以下错误-
ModuleNotFoundError:没有名为“pyspark.sql”的模块。请参阅有关如何将python库与EMR Serverless一起使用的用户指南。
当我试图将pyspark.sql导入位于zip包中的python文件时,就会发生这种情况。
文件-
pyspark.zip
|--__init__.py
|--spark.py
字符串
内容-
#__init__.py
from .spark import *
#spark.py
from pyspark.sql import SparkSession
def run():
print("Create Spark Session")
spark_session = SparkSession\
.builder\
.appName("First pyspark project")\
.getOrCreate()
型
我给这份工作的Spark财产-
--conf spark.submit.pyFiles=s3://my-bucket/pyspark.zip
--conf spark.executorEnv.PYSPARK_PYTHON=python
我担心我错过了一些东西。我应该安装它还是什么?我所做的就是将项目压缩成zip文件并上传到S3。
1条答案
按热度按时间qv7cva1a1#
我也遇到了这个问题。你给作业的spark属性不正确。
对于EMR,它应该是:
字符串