spark状态流处理:将流与缓存连接

omvjsjqw  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(288)

假设我们的情况如下:
未处理的流a正在写入s3
s3中已存储了已处理的记录b
处理过程如下:
在应用程序启动时,从b位置读取缓存
流a与缓存连接(左连接)
缓存将使用联接的结果进行更新
连接结果中的记录被写入b位置
因此,我的问题是如何最好地解决这个问题,以及可以使用哪些技术在spark中进行这种有状态流处理?一个重要的要求是确保写入s3的连接记录只发生一次。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题