从版本408开始,特里诺增加了对使用特里诺change_data_feed_enabled
表属性创建表的支持。我使用的是特里诺版本413。
我在AWS S3中已经有一些delta表和数据,它是使用PySpark构建的,并启用了更改数据馈送。当我通过特里诺Delta连接器创建表时,我将此属性设置为True
。当我查询表时,它将根据其定义的键返回每条记录的最新图像。与将此属性设置为False
相比似乎没有什么区别。
如果使用Spark SQL读取delta表,可以配置读取选项readChangeFeed
,控制结果,是最新的镜像还是数据的所有历史更改日志。
我如何在特里诺中编写SQL语句,以便像在PySpark中设置readChangeFeed
一样执行类似的阅读控制?
我如何通过特里诺Delta Lake连接器创建表的示例:
CREATE TABLE delta.table_collection.table_name (
id varchar,
value_1 varchar,
value_2 integer,
log_status varchar,
ts bigint,
) with (
location = 's3://path/to/table',
checkpoint_interval = 7,
change_data_feed_enabled = true
);
1条答案
按热度按时间biswetbf1#
从
419
版本开始,特里诺支持读取增量表的CDF。您可以在这里查看。