我一直在用alpakka-kafka从kafka的主题流式传输数据。我正在使用:
Consumer
.committableSource(consumerSettings, Subscriptions.topics(topic))
最近,我尝试在一个有15个分区的主题上向更多的消费者发送垃圾邮件,比如3个。当我插入更多具有相同组id的使用者时,它会友好地为每个使用者划分5个分区,但它似乎不会同时使用所有分区,它似乎会逐个读取,或者读取特定分区的速度比其他分区快得多。
|Partition|LogSize |Consumer Offset|Lag |
|0 |8,429,145| 6,087,144|2,342,001|
|1 |8,424,948| 6,223,257|2,201,691|
|2 |8,428,121| 7,764,854| 663,267|
|3 |8,421,528| 6,071,425|2,350,103|
|4 |8,434,659| 7,351,552|1,083,107|
|5 |8,428,323| 5,935,336|2,492,987|
|6 |8,424,974| 6,455,301|1,969,673|
|7 |8,431,820| 7,763,984| 667,836|
|8 |8,425,999| 6,370,962|2,055,037|
|9 |8,416,354| 6,681,093|1,735,261|
|10 |8,416,217| 6,814,949|1,601,268|
|11 |8,428,026| 5,878,703|2,549,323|
|12 |8,424,604| 8,424,589| 15|
|13 |8,431,019| 8,431,019| 0|
|14 |8,423,218| 8,423,218| 0|
下面是我正在运行的一个生产应用程序的真实示例。所以我有一些问题:
读取某些分区比读取其他分区快得多可以吗?
请注意,这种行为只在我启动多个消费者时发生。
我应该改变我的消费方式吗?我应该使用每个分区的源代码,还是有不同的选项?
更新
我曾怀疑,在插入多个用户(阅读多个应用程序)时可能会发生这种情况,但今天发生这种情况的用户只有一个,您可以通过查看相同的用户组看到。
事情发生的时候,我还有20万条消息等待处理(延迟)。上面这张照片是我们公司Kafka经理的照片。
1条答案
按热度按时间1cosmwyk1#
我们通过删除将消息从一个主题复制到另一个主题的组件来解决这个问题。
本质上,生产者正在向一个主题写入消息,而此组件将这些消息复制到另一个主题,并启用压缩,保留给定id的最后状态。结果表明,此组件工作不正常,并且附加到此压缩主题的使用者遇到了一些问题。
所以,最终,谁需要一个压缩主题,让制作者直接编写它。