我正在测试azure synapse analytics中的spark功能,作为databricks的替代品。我正在尝试在azuresynapse的databricks上实现delta-lake作业。
要从事件中心接收消息,我有以下pyspark代码:
conf = {}
conf["eventhubs.connectionString"] = connectionString
read_df = (
sc
.readStream
.format("eventhubs")
.options(**conf)
.load()
)
该代码收到一个错误“java.lang.classnotfoundexception:failed to find data source:eventhubs”,除非maven包com.microsoft。azure:azure-eventhubs-spark_x:x已安装。
我被困在如何安装那个软件包。
我尝试将其添加到名为job\u props.txt的spark属性文件中,内容如下:
spark.jars.packages com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.13
当我将此文件添加到spark cluster“spark config file”选项时,集群在启动时失败,并出现livy进程终止错误。
如何在azure synapse中为pyspark作业安装azure event hubs包?
1条答案
按热度按时间v1l68za41#
从我们的microsoft客户代表那里得到了答案。
根据他们的说法,在这个时候,你不能像在databricks中那样在synapseSpark池中阅读Kafka的作品。问题是,尽管synapse spark pool允许您加载python libs,但是kafka python libs实际上 Package 了java libs,而现在还不支持。