我想使用pyspark在hadoop集群上使用delta-lake。我还没有找到任何安装指南使用三角洲湖除了下面。
pyspark—包io。delta:delta-core_2.11:0.1.0--conf“spark.sql.extensions=io.delta.sql.deltasparksessionextension”---conf“spark.sql.catalog.spark\u catalog=org.apache.spark.sql.delta.catalog.deltacatalog”
我有两个问题:
与apachespark2.4.3兼容的delta-lake(<0.7)的最新版本是什么?我知道应该是2.11 scala版本。
如何在hadoop集群上安装delta-lake包?
提前谢谢。
1条答案
按热度按时间ibrsph3r1#
支持spark2.4.3的delta的最新版本是0.6.1(github分支),请使用
--packages io.delta:delta-core_2.11:0.6.1
它应该是开箱即用的。