Flink 使用Redshift阅读没有清单文件的增量表

vlf7wbxs 于 2022-12-28 发布在 Apache

关注(0)|答案(1)|浏览(127)

我的目标是使用Redshift读取AWS S3上的Delta表。我通读了Redshift Spectrum to Delta Lake Integration，注意到它提到使用Apache Spark生成清单，使用：

GENERATE symlink_format_manifest FOR TABLE delta.`<path-to-delta-table>`

或

DeltaTable deltaTable = DeltaTable.forPath(<path-to-delta-table>);
deltaTable.generate("symlink_format_manifest");

但是，似乎不支持为Apache Flink和它使用的相应Delta Standalone Library生成这些清单文件，这是将数据写入Delta表的底层软件。
我怎样才能绕过这个限制呢？

1条答案

AWS现在似乎支持此功能：
随着今天的发布，Glue crawler增加了对为原生Delta Lake表创建AWS Glue数据目录表的支持，并且不需要生成清单文件。这改善了客户体验，因为现在您不必在新分区可用或表的元数据更改时重新生成清单文件。
https://aws.amazon.com/blogs/big-data/introducing-native-delta-lake-table-support-with-aws-glue-crawlers/