我正在尝试使用apachebeam在gcp上编写一个摄取应用程序,我应该以流式方式编写它,从kafka或pubsub主题读取数据,然后摄取到datasource。
虽然用pubsub和apachebeam编写它似乎很直接,但我的问题是,如果我的摄取失败或重新启动,并且如果它再次读取pubsub主题开头的所有数据,或者像kafka一样,它可以读取主题中最新提交的偏移量,会发生什么?
我正在尝试使用apachebeam在gcp上编写一个摄取应用程序,我应该以流式方式编写它,从kafka或pubsub主题读取数据,然后摄取到datasource。
虽然用pubsub和apachebeam编写它似乎很直接,但我的问题是,如果我的摄取失败或重新启动,并且如果它再次读取pubsub主题开头的所有数据,或者像kafka一样,它可以读取主题中最新提交的偏移量,会发生什么?
1条答案
按热度按时间7kqas0il1#
pub/sub消息被持久化,直到它们被从其订阅接收挂起消息的订阅者传递和确认。一旦消息被确认,它就会从订阅的队列中删除。
有关消息流的更多信息,请查看此文档
希望有帮助。