我正在开发一个数据流应用程序,我正在研究在这个项目中使用apacheflink的可能性。其主要原因是它支持良好的高级流结构,非常类似于Java8的流api。
我将接收与数据库中特定记录相对应的事件,我希望能够处理这些事件(来自诸如rabbitmq或kafka之类的消息代理),并最终更新数据库中的记录,并将已处理/转换的事件推送到另一个接收器(可能是另一个消息代理)。
理想情况下,与特定记录相关的事件需要按fifo顺序进行处理(尽管会有一个时间戳,有助于检测无序事件),但与不同记录相关的事件可以并行处理。我正打算用 keyBy()
构造按记录对流进行分区。
需要进行的处理取决于数据库中有关记录的当前信息。但是,我找不到一个示例或推荐的方法来查询数据库中的此类记录,以便用我需要的其他信息来丰富正在处理的事件。
我想到的管道如下:
->对接收到的id执行keyby()->从id对应的数据库中检索记录->对记录执行处理步骤->将处理过的事件推送到外部队列并更新数据库记录
数据库记录需要更新,因为另一个应用程序将查询数据。
在完成这条管道之后,可能还有其他的优化。例如,可以在托管状态下缓存(更新的)记录,以便同一记录上的下一个事件不需要另一个数据库查询。但是,如果应用程序不知道某个特定记录,则需要从数据库中检索该记录。
在apache flink中,对于这种场景,最好的方法是什么?
1条答案
按热度按时间bvpmtnay1#
您可以通过扩展一个丰富的函数来执行数据库查找,例如
RichFlatMap
函数中初始化数据库连接一次open()
方法,然后处理flatMap()
方法:然后你可以用
DatabaseMapper
具体如下:您可以在这里找到一个使用redis缓存数据的示例。