在(ADF)Databricks作业群集上安装Maven库

iszxjhcz  于 12个月前  发布在  Maven
关注(0)|答案(1)|浏览(145)

我尝试在我的init脚本中使用/databricks/spark/bin/spark-shell --packages com.crealytics:spark-excel_2.13:3.4.1_0.19.0,但是我得到错误Error: Could not find or load main class org.apache.spark.launcher.Main /databricks/spark/bin/spark-class: line 101: CMD: bad array subscript
我还尝试在SparkSession初始化中使用.config("spark.jars.packages", "com.databricks:spark-xml_2.12:0.15.0"),如下所示,但看起来配置被忽略了。

from delta import configure_spark_with_delta_pip
from pyspark.sql import SparkSession

builder = (
    SparkSession
    .builder
    .appName("oms-xml-streaming")
    .config("spark.jars.packages", "com.databricks:spark-xml_2.12:0.15.0")
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
    .config("spark.databricks.delta.autoCompact.enabled", True)
)
spark = configure_spark_with_delta_pip(builder).getOrCreate()

字符串
工作区库已被弃用,因此我无法将该工具包下载到我的工作区并将其复制到/databricks/jars/
有什么想法吗?

8ftvxx2r

8ftvxx2r1#

在Azure数据工厂中,在任务级别而不是链接服务级别上指定数据库。创建一个任务(notebook/jar/python),然后您就可以在任务属性的“设置”选项卡中为其指定库,如下所示:
x1c 0d1x的数据
如果您使用的是到现有集群的连接,则需要将库安装到该集群。

相关问题