Apache Spark Dataproc支持Delta Lake格式吗?

zd287kbt  于 2023-10-23  发布在  Apache
关注(0)|答案(1)|浏览(114)

Google的GCP DataProc是否提供了Databricks Delta格式?
对于AWS和AZURE来说,很明显是这样的。然而,当仔细阅读,研究互联网时,我不确定情况是否如此。数据库文档也不太清楚。
我假设谷歌觉得他们的产品已经足够了。例如,谷歌云存储,它是可变的吗?这个https://docs.gcp.databricks.com/getting-started/overview.html提供的上下文太少了。

kyks70gy

kyks70gy1#

Delta Lake格式在Dataproc上得到支持。您可以简单地将其用作任何其他数据格式,如Parquet和ORC。以下是此article的示例。

# Copyright 2022 Google LLC.
# SPDX-License-Identifier: Apache-2.0
import sys
from pyspark.sql import SparkSession
from delta import *

def main():
    input = sys.argv[1]
    print("Starting job: GCS Bucket: ", input)
    spark = SparkSession\
        .builder\
        .appName("DeltaTest")\
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")\
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")\
        .getOrCreate()
    data = spark.range(0, 500)
    data.write.format("delta").mode("append").save(input)
    df = spark.read \
    .format("delta") \
    .load(input)
    df.show()
    spark.stop()

if __name__ == "__main__":
    main()

使用--properties="spark.jars.packages=io.delta:delta-core_2.12:1.1.0"提交作业时,还需要添加依赖项。

相关问题