glue crawler可以爬网deltalake文件在aws glue目录中创建表吗?

sbtkgmzw  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(411)

我们有一个现有的基础设施,我们正在通过aws爬虫程序对s3目录进行爬网。这些s3目录是作为aws datalake的一部分创建的,并通过spark作业转储。现在为了实现delta特性,我们在deltalake上做了一个poc。因此,当我通过spark delta作业在s3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫程序创建表。
我们可以用aws爬虫来爬网delta lake文件吗?

qvk1mo1f

qvk1mo1f1#

根据这个文件,你不应该使用胶水爬虫。你应该使用清单文件集成德尔塔文件与雅典娜。
警告
不要使用aws胶水爬虫的位置来定义表在aws胶水。delta-lake维护与表的多个版本相对应的文件,查询glue爬网的所有文件将产生不正确的结果。

相关问题