我对Kafka很陌生,只是在学习。作为工作的一部分,我需要为模块创建一个体系结构(使用.net)。我想得到一些输入来设计我的架构。
在更高的层次上,有一些现有的系统将充当生产者并生成消息。在需要设计的新模块中,我需要消耗(数十亿)条消息,对其进行一些繁重的处理,并根据结果创建消息,将其发送给Kafka。起初,Kafka流似乎对这一点有好处,但很少有人担心:
1) 可能有一段时间,我需要重新处理信息(单个或批量)将有数百万条消息需要重新处理。可能是生产者方面的失败,或者生产者发送数据时丢失了一些记录,或者消费者方面的错误,或者只是随机要求重新处理上个月的数据。如何在一段时间(周或月)后重新处理记录,我正在考虑创建一个表(例如:jobs或其他内容),一旦我在consumer中收到消息,就会在该表中创建带有某个标志的记录。如果我需要再次处理,那么我将参考此表并发送消息。有什么更好的方法或消费者补偿可以帮助这或Kafka提供什么呢?我知道Kafka是实时处理,但需要满足这一要求,所以如果我能得到一些建议,将不胜感激。
2) 我还必须根据收到的消息进行分析记录存储,这些消息稍后将用于etl作业,为此我考虑使用一些连接器接收器。因为它可以是数以百万计的数据。哪一个是最好的连接器接收器?
有人能提供更多的信息、想法和参考资料吗?
暂无答案!
目前还没有任何答案,快来回答吧!