我已经浏览了s3Kafka连接器上的一次担保博客
这是我目前所知道的,考虑到我将使用默认分区器:
timestamp.extractor应设置为record
滚动策略应设置为rotate.interval.ms
我还有几件事需要复习:
为了使时间戳提取器具有确定性,我们要求连接器从kafka记录中提取时间戳。如果我希望这个时间戳是log\u append\u time,我需要确保我从中读取的主题应该将message.timestamp.type设置为log\u append\u time。
我不想使用创建时间的原因是因为生产者可以使用不同的时钟运行。但后来我意识到,集群中的代理也可能发生同样的情况。特别是当领导者改变时,时间戳可能并不总是单调地增加。我进一步搜索,发现Kafka也明确地处理了这个场景
目前还没有关于tasks.max是否对s3连接器有任何影响的消息。我可以假设如果连接器正在读取一个有5个分区的主题,那么tasks.max可以设置为5吗?
我了解到我们可以在kafka connect的worker.properties中定义与消费者相关的属性。是否强制将使用者隔离级别设置为读取一次提交工作的\u?或者是s3连接器内部处理的东西?
如果有任何错误/多余的,请告诉我。
暂无答案!
目前还没有任何答案,快来回答吧!