在(ADF)Databricks作业群集上安装Maven库

iszxjhcz 于 12个月前发布在 Maven

关注(0)|答案(1)|浏览(145)

我尝试在我的init脚本中使用/databricks/spark/bin/spark-shell --packages com.crealytics:spark-excel_2.13:3.4.1_0.19.0，但是我得到错误Error: Could not find or load main class org.apache.spark.launcher.Main /databricks/spark/bin/spark-class: line 101: CMD: bad array subscript。
我还尝试在SparkSession初始化中使用.config("spark.jars.packages", "com.databricks:spark-xml_2.12:0.15.0")，如下所示，但看起来配置被忽略了。

from delta import configure_spark_with_delta_pip
from pyspark.sql import SparkSession

builder = (
    SparkSession
    .builder
    .appName("oms-xml-streaming")
    .config("spark.jars.packages", "com.databricks:spark-xml_2.12:0.15.0")
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
    .config("spark.databricks.delta.autoCompact.enabled", True)
)
spark = configure_spark_with_delta_pip(builder).getOrCreate()

字符串
工作区库已被弃用，因此我无法将该工具包下载到我的工作区并将其复制到/databricks/jars/。
有什么想法吗？

Maven

来源：https://stackoverflow.com/questions/77515835/install-maven-library-on-adf-databricks-job-cluster