在没有internet访问的服务器上安装delta lake库

ltskdhd1  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(331)

我有一个没有互联网接入的服务器,我想使用三角洲湖。所以在spark会议中正常使用delta lake是行不通的。从pyspark.sql导入sparksession

spark = SparkSession \
   .builder \
   .appName("...") \
   .master("...") \
   .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
   .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
   .getOrCreate()

我应该在哪里复制delta lake github存储库?如何将spark会话指向正确的库

sulc1iza

sulc1iza1#

感谢@blackbishop,我找到了在pyspark中添加第三方javajar文件的答案
对于delta-lake,下载jar文件:delta-core\u2\u12\u0.8.0.jar
您可以在运行时使用spark配置将路径添加到jar文件。
举个例子:

conf = SparkConf().set("spark.jars", "/path-to-jar/spark-streaming-kafka-0-8-assembly_2.11-2.2.1.jar")

sc = SparkContext( conf=conf)

有关更多信息,请参阅文档。
对于jupyter笔记本:

spark = (SparkSession
    .builder
    .appName("Spark_Test")
    .master('yarn-client')
    .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
    .config("spark.executor.cores", "4")
    .config("spark.executor.instances", "2")
    .config("spark.sql.shuffle.partitions","8")
    .enableHiveSupport()
    .getOrCreate())

# Do this

spark.sparkContext.addPyFile("/path/to/jar/xxxx.jar")

链接到我找到它的来源:https://github.com/graphframes/graphframes/issues/104

相关问题