假设我们的情况如下:未处理的流a正在写入s3s3中已存储了已处理的记录b处理过程如下:在应用程序启动时,从b位置读取缓存流a与缓存连接(左连接)缓存将使用联接的结果进行更新连接结果中的记录被写入b位置因此,我的问题是如何最好地解决这个问题,以及可以使用哪些技术在spark中进行这种有状态流处理?一个重要的要求是确保写入s3的连接记录只发生一次。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!