从sql server将数据实时流式传输到azure数据仓库

gywdnpxw  于 2021-06-07  发布在  Kafka
关注(0)|答案(2)|浏览(455)

我正在尝试在microsoftazure数据仓库之上构建一个实时报告服务。目前我有一个sql server,大约有5 tb的数据。我想将数据流传输到数据仓库,并使用azuredw的计算能力生成基于数据的实时报告。有什么现成的/最佳实践可以做到这一点吗?
我考虑的一种方法是将数据加载到kafka中,然后通过spark流将其流到azuredw中。然而,这种方法更接近实时而不是实时。有没有办法利用SQLServer变更数据捕获将数据流式传输到数据仓库中?

k2arahey

k2arahey1#

如果您正在寻找基于sql的saas解决方案来支持实时报告应用程序,我们最近发布了一个名为stride的http api产品,它基于我们构建的开源流式sql数据库pipelinedb,可以处理这种工作负载。
StrideAPI使开发人员能够对流数据运行连续sql查询,并将连续查询的结果存储在表中,这些表会随着新数据的到来而增量更新。这可能是一个简单的方法来添加您上面提到的实时分析层的类型。
请随时查看STERID技术文档以了解更多详细信息。

jchrr9hc

jchrr9hc2#

我个人并不认为azuresql数据仓库是实时体系结构。这是一个批量mpp系统,经过优化,可以在多个节点上分解数十亿行。在我看来,这样的模式并不是亚秒或实时性能的同义词。实时架构看起来更像azure中的事件中心>流分析。可用的低并发性(即当前最多32个并发用户)也不适合报告。
作为另一种选择,您可以考虑在内存表中使用azuresql数据库进行快速加载,然后在方便的时候将其移交给仓库。
您可以在一个具有批处理和实时元素的所谓lambda体系结构中使用azuresql数据仓库,其中is支持批处理流。请参阅此处了解更多信息:
https://social.technet.microsoft.com/wiki/contents/articles/33626.lambda-architecture-implementation-using-microsoft-azure.aspx

相关问题