如何使用sparksql将数据写入apache冰山表?

qyuhtwio  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(513)

我正在尝试熟悉apacheiceberg,但在理解如何使用sparksql将一些外部数据写入表时遇到了一些问题。
我有一个文件,1.csv,在一个目录中,/data
我的冰山目录配置为指向这个目录/warehouse
我想将这个one.csv写入apache iceberg表(最好使用spark sql)
甚至可以使用sparksql读取外部数据吗?然后写在冰山的table上?我必须使用scala或python来完成这个任务吗?我已经阅读了很多有关spark3.0.1文档的冰山一角,但也许我遗漏了一些东西。
代码更新
这里有一些代码,我希望能有所帮助

spark.conf.set("spark.sql.catalog.spark_catalog", "org.apache.iceberg.spark.SparkSessionCatalog")
spark.conf.set("spark.sql.catalog.spark_catalog.type", "hive")
spark.conf.set("spark.sql.catalog.local", "org.apache.iceberg.spark.SparkCatalog")
spark.conf.set("spark.sql.catalog.local.type", "hadoop")
spark.conf.set("spark.sql.catalog.local.warehouse", "data/warehouse")

我在/one/one.csv目录中有我需要使用的数据
如何使用spark将其放入冰山桌中?所有这些都可以纯粹使用sparksql来完成吗?

spark.sql(
"""
CREATE or REPLACE TABLE local.db.one
USING iceberg
AS SELECT * FROM `/one/one.csv`
"""
)

那么我的目标就是可以直接使用这个冰山表,例如:

select * from local.db.one

这将提供/one/one.csv文件中的所有内容。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题