ModuleNotFoundError:与EMR Serverless一起使用时没有名为“pyspark.sql”的模块

ffvjumwh  于 10个月前  发布在  Spark
关注(0)|答案(1)|浏览(162)

当我尝试在EMR无服务器上运行作业时,出现以下错误-
ModuleNotFoundError:没有名为“pyspark.sql”的模块。请参阅有关如何将python库与EMR Serverless一起使用的用户指南。
当我试图将pyspark.sql导入位于zip包中的python文件时,就会发生这种情况。
文件-

pyspark.zip
|--__init__.py
|--spark.py

字符串
内容-

#__init__.py
from .spark import *

#spark.py
from pyspark.sql import SparkSession

def run():
    print("Create Spark Session")
    spark_session = SparkSession\
        .builder\
        .appName("First pyspark project")\
        .getOrCreate()


我给这份工作的Spark财产-
--conf spark.submit.pyFiles=s3://my-bucket/pyspark.zip
--conf spark.executorEnv.PYSPARK_PYTHON=python
我担心我错过了一些东西。我应该安装它还是什么?我所做的就是将项目压缩成zip文件并上传到S3。

qv7cva1a

qv7cva1a1#

我也遇到了这个问题。你给作业的spark属性不正确。
对于EMR,它应该是:

spark.yarn.dist.pyFiles=s3://my-bucket/pyspark.zip

字符串

相关问题