我们有一个由3个经纪人组成的托管MSK Kafka集群。我们注意到其中一个经纪人在相当长的一段时间内比其他经纪人的磁盘使用量大得多。
经过一些分析,我们发现__consumer_offsets
主题中的一个分区副本比其他副本大得多。主代理上的分区和一个副本的大小大约为40MB。第三个副本为150GB。我们确实有一些非常活跃的使用者组(每天数十亿条消息),但我会期望副本均匀分布,特别是如果主副本不是很大的话。
我们认为这是因为在某个时间点,所有代理中的磁盘都处于100%。我们增加了磁盘并重新启动了所有代理。
由于是AWS MSK,我们无法访问服务器。对于为什么会发生这种情况以及如何解决这个问题,有什么建议吗?
1条答案
按热度按时间jchrr9hc1#
经过一番折腾,我找到了一个解决办法。这个想法是重新创建有问题的副本。
步骤:
1.获取现有分区分配使用:
其中
topics-to-generate.json
文件为:1.使用步骤1的输出,通过删除有问题的副本及其日志目录(在我们的示例中,它是代理3上的分区13)来更新有问题的分区:
1.应用新配置:
(执行后,可以通过将
--execute
替换为--verify
来查看状态)1.等待磁盘大小下降
1.使用步骤1中的原始配置恢复原始分区分配: