我尝试在我的init脚本中使用/databricks/spark/bin/spark-shell --packages com.crealytics:spark-excel_2.13:3.4.1_0.19.0
,但是我得到错误Error: Could not find or load main class org.apache.spark.launcher.Main /databricks/spark/bin/spark-class: line 101: CMD: bad array subscript
。
我还尝试在SparkSession初始化中使用.config("spark.jars.packages", "com.databricks:spark-xml_2.12:0.15.0")
,如下所示,但看起来配置被忽略了。
from delta import configure_spark_with_delta_pip
from pyspark.sql import SparkSession
builder = (
SparkSession
.builder
.appName("oms-xml-streaming")
.config("spark.jars.packages", "com.databricks:spark-xml_2.12:0.15.0")
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
.config("spark.databricks.delta.autoCompact.enabled", True)
)
spark = configure_spark_with_delta_pip(builder).getOrCreate()
字符串
工作区库已被弃用,因此我无法将该工具包下载到我的工作区并将其复制到/databricks/jars/
。
有什么想法吗?
1条答案
按热度按时间8ftvxx2r1#
在Azure数据工厂中,在任务级别而不是链接服务级别上指定数据库。创建一个任务(notebook/jar/python),然后您就可以在任务属性的“设置”选项卡中为其指定库,如下所示:
x1c 0d1x的数据
如果您使用的是到现有集群的连接,则需要将库安装到该集群。