sql server—如何使用流处理进行etl

hs1ihplo  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(426)

我有一个sql server数据库,每天有数百万行被插入/删除/更新。我应该提出一个etl解决方案来将数据从这个数据库传输到数据仓库。起初,我尝试与cdc和ssis合作,但我所在的公司希望有一个更实时的解决方案。我做了一些研究,发现了流处理。我也找了spark和flink教程,但什么也没找到。
我的问题是我应该选择哪个流处理工具?我该如何学习如何处理它呢?

ki1q1bka

ki1q1bka1#

开源解决方案您可以使用confluent kafka集成工具跟踪使用加载时间戳的插入和更新操作。这些将自动为您提供实时数据,这些数据将插入或更新到数据库中。如果数据库中有软删除,也可以使用加载时间戳和active或inactive标志来跟踪。如果没有这样的标志,那么您需要提供一些逻辑,说明哪一个分区可能会在当天更新,并将整个分区发送到流中,这肯定是资源耗尽的。
付费解决方案有一个叫Strim cdc的付费工具,它可以为您的系统提供实时响应

相关问题