流处理中的大数据集过滤

kse8i1jr  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(216)

我正在开发一个流应用程序,输入流是一系列事件。对于每个事件,我需要从关系数据库中筛选出有效的订户。 eventId => (eventId, [subscriberIds]) 假设订阅表是有界的(或者如果方便的话是无界的),并且有数百万行,有没有一种方法可以有效地进行过滤?
假设我使用的是flink,但我也对spark或storm解决方案持开放态度。

li9yvcax

li9yvcax1#

假设有效订户集不断更新,并且在执行此验证时不能使用过期信息,那么flink提供了两个选择:
使用flink的异步i/o操作符来管理对关系数据库的查询
通过在关系数据库的变更数据捕获流中进行流式处理,维护处于flink状态的关系数据库的镜像

相关问题