我们有一个现有的基础设施,我们正在通过aws爬虫程序对s3目录进行爬网。这些s3目录是作为aws datalake的一部分创建的,并通过spark作业转储。现在为了实现delta特性,我们在deltalake上做了一个poc。因此,当我通过spark delta作业在s3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫程序创建表。
我们可以用aws爬虫来爬网delta lake文件吗?
我们有一个现有的基础设施,我们正在通过aws爬虫程序对s3目录进行爬网。这些s3目录是作为aws datalake的一部分创建的,并通过spark作业转储。现在为了实现delta特性,我们在deltalake上做了一个poc。因此,当我通过spark delta作业在s3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫程序创建表。
我们可以用aws爬虫来爬网delta lake文件吗?
1条答案
按热度按时间qvk1mo1f1#
根据这个文件,你不应该使用胶水爬虫。你应该使用清单文件集成德尔塔文件与雅典娜。
警告
不要使用aws胶水爬虫的位置来定义表在aws胶水。delta-lake维护与表的多个版本相对应的文件,查询glue爬网的所有文件将产生不正确的结果。