glue crawler可以爬网deltalake文件在aws glue目录中创建表吗？

sbtkgmzw 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(445)

我们有一个现有的基础设施，我们正在通过aws爬虫程序对s3目录进行爬网。这些s3目录是作为aws datalake的一部分创建的，并通过spark作业转储。现在为了实现delta特性，我们在deltalake上做了一个poc。因此，当我通过spark delta作业在s3中编写这些deltalake文件时，我的爬虫程序无法从这些爬虫程序创建表。
我们可以用aws爬虫来爬网delta lake文件吗？

apache-spark aws-glue delta-lake aws-glue-data-catalog data-lake

来源：https://stackoverflow.com/questions/63755539/can-glue-crawler-crawl-the-deltalake-files-to-create-tables-in-aws-glue-catalogu

1条答案

按热度按时间

根据这个文件，你不应该使用胶水爬虫。你应该使用清单文件集成德尔塔文件与雅典娜。
警告
不要使用aws胶水爬虫的位置来定义表在aws胶水。delta-lake维护与表的多个版本相对应的文件，查询glue爬网的所有文件将产生不正确的结果。

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前