Apache Spark Delta Lake连接器查询更改表的数据馈送条目

e4eetjau  于 2023-10-23  发布在  Apache
关注(0)|答案(1)|浏览(155)

从版本408开始,特里诺增加了对使用特里诺change_data_feed_enabled表属性创建表的支持。我使用的是特里诺版本413。
我在AWS S3中已经有一些delta表和数据,它是使用PySpark构建的,并启用了更改数据馈送。当我通过特里诺Delta连接器创建表时,我将此属性设置为True。当我查询表时,它将根据其定义的键返回每条记录的最新图像。与将此属性设置为False相比似乎没有什么区别。
如果使用Spark SQL读取delta表,可以配置读取选项readChangeFeed,控制结果,是最新的镜像还是数据的所有历史更改日志。
我如何在特里诺中编写SQL语句,以便像在PySpark中设置readChangeFeed一样执行类似的阅读控制?
我如何通过特里诺Delta Lake连接器创建表的示例:

CREATE TABLE delta.table_collection.table_name (
    id varchar,
    value_1 varchar,
    value_2 integer,
    log_status varchar,
    ts bigint,
) with (
    location = 's3://path/to/table',
    checkpoint_interval = 7,
    change_data_feed_enabled = true
);
biswetbf

biswetbf1#

419版本开始,特里诺支持读取增量表的CDF。您可以在这里查看。

相关问题