sql server—如何使用流处理进行etl

hs1ihplo 于 2021-06-21 发布在 Flink

关注(0)|答案(1)|浏览(440)

我有一个sql server数据库，每天有数百万行被插入/删除/更新。我应该提出一个etl解决方案来将数据从这个数据库传输到数据仓库。起初，我尝试与cdc和ssis合作，但我所在的公司希望有一个更实时的解决方案。我做了一些研究，发现了流处理。我也找了spark和flink教程，但什么也没找到。
我的问题是我应该选择哪个流处理工具？我该如何学习如何处理它呢？

apache-spark sql-server apache-flink etl business-intelligence

来源：https://stackoverflow.com/questions/54745881/how-to-etl-using-stream-processing

1条答案

按热度按时间

ki1q1bka1#

开源解决方案您可以使用confluent kafka集成工具跟踪使用加载时间戳的插入和更新操作。这些将自动为您提供实时数据，这些数据将插入或更新到数据库中。如果数据库中有软删除，也可以使用加载时间戳和active或inactive标志来跟踪。如果没有这样的标志，那么您需要提供一些逻辑，说明哪一个分区可能会在当天更新，并将整个分区发送到流中，这肯定是资源耗尽的。
付费解决方案有一个叫Strim cdc的付费工具，它可以为您的系统提供实时响应

赞(0）回复(0）举报 2021-06-21

我来回答

sql server—如何使用流处理进行etl

1条答案

相关问题

热门标签

最新问答