不清楚在哪里添加--conf spark.jars.packages=org.apache.spark：spark-avro_2.11：2.4.4在aws云形成yaml模板中

ccgok5k5 于 2022-11-16 发布在 Apache

关注(0)|答案(2)|浏览(120)

我已经创建了胶水工作转换avro文件到 parquet 。为此，我导入

--conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4

在yaml文件中。但由于未创建 Dataframe ，作业仍然失败。显示以下错误：AnalysisException（'无法找到数据源：Avro是内置的，但从Spark 2.4开始是外部数据源模块。“）
我的yml模板如下：

DefaultArguments:
    '--job-language': 'python'
    '--job-bookmark-option': 'job-bookmark-disable'
    '--enable-metrics': ''
    '--conf': 'spark.executor.memoryOverhead=1g --conf spark.maxRemoteBlockSizeFetchToMem=2g --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4'
    '--JOB_NAME': !If [IsPythonShell, !Ref GlueJobName, !Ref "AWS::NoValue"]

我不清楚我哪里错了。我猜我把conf包放错了地方。
请帮帮忙。

apache-spark

来源：https://stackoverflow.com/questions/60108213/not-clear-where-to-add-conf-spark-jars-packages-org-apache-sparkspark-avro-2