apache kafka生产集群设置问题

我们一直在尝试在aws-linux机器上建立一个生产级kafka集群，但到目前为止我们还没有成功。
Kafka版本：2.1.0
机器：

5 r5.xlarge machines for 5 Kafka brokers.
3 t2.medium zookeeper nodes
1 t2.medium node for schema-registry and related tools. (a Single instance of each)
1 m5.xlarge machine for Debezium.

默认代理配置：

num.partitions=15
min.insync.replicas=1
group.max.session.timeout.ms=2000000 
log.cleanup.policy=compact
default.replication.factor=3
zookeeper.session.timeout.ms=30000

我们的问题主要与海量数据有关。我们正在尝试使用debezium转移Kafka主题中的现有表。其中许多表都非常庞大，有超过50000000行。
到目前为止，我们已经尝试了很多方法，但是我们的集群每次都失败，原因有一个或多个。
计划任务“isr expiration”（kafka.utils.kafkascheduler）org.apache.zookeeper.keeperxception$sessionexpiredexception:keeperrorcode=session expired for/brokers/topics/\u consumer\u offsets/partitions/0/state，位于org.apache.zookeeper.keeperxception.create（keeperxception）。java:130)在org.apache.zookeeper.keeperexception.create（keeperexception。java:54)..
错误2：
]info[partition .public.driver\u operation-14 broker=3]缓存的zkversion[21]不等于zookeeper中的版本，跳过更新isr（kafka.cluster.partition）[2018-12-12 14:07:26551]info[partition .public.hub-14 broker=3]将isr从1,3收缩到3（kafka.cluster.partition）[2018-12-12 14:07:26，556]信息[partition .public.hub-14 broker=3]缓存的zkversion[3]不等于zookeeper中的版本，跳过isr更新（kafka.cluster.partition）[2018-12-12 14:07:26556]信息[partition .public.field\u data\u 12\u 2018-7 broker=3]将isr从1,3缩小到3（kafka.cluster.partition）
错误3：
isolationlevel=read\u uncommitted，toforget=，metadata=（sessionid=888665879，epoch=initial））（kafka.server.replicafetcherthread）java.io.ioexception:在org.apache.kafka.clients.networkclientutils.sendandreceive（networkclientutils）读取响应之前，已断开与3的连接。java:97)
还有一些错误：
经纪人之间频繁的断开连接，这可能是ISR不停地收缩和扩展而没有自动恢复的原因。
架构注册表超时。我甚至不知道模式注册表是如何受到影响的。我看那个服务器没有太多负载。我错过什么了吗？我是否应该对架构注册表的多个示例使用负载平衡器作为故障转移？。主题模式中只有28条消息。确切的错误消息是restclientexception:register操作超时。错误代码：50002
有时消息传输速率超过每秒100000条消息，有时下降到每秒2000条消息？邮件大小会导致这种情况吗？
为了解决上面的一些问题，我们增加了代理的数量，并增加了zookeeper.session.timeout.ms=30000，但我不确定它是否真的解决了我们的问题，如果真的解决了，怎么解决？。
我有几个问题：
我们的集群是否足以处理这么多数据。
我们有什么明显的遗漏吗？
如何在转移到生产级别之前对设置进行负载测试？
什么会导致代理和模式注册表之间的会话超时。
处理模式注册表问题的最佳方法。
我们其中一个经纪人的网络负载。

请随时询问更多信息。

请使用最新的官方版本的合流为您集群。
实际上，您可以通过增加主题的分区数和增加 tasks.max （当然是在您的接收器连接器）超过1在您的连接器工作更并发和更快。
请增加kafka connect主题的数量，并使用kafka connect分布式模式来提高kafka connect群集的高可用性。您可以通过在kafka connectand schema注册表配置中设置复制因子的数量来实现，例如：

config.storage.replication.factor=2
status.storage.replication.factor=2
offset.storage.replication.factor=2

请设置 topic compression 至 snappy 为了你的大table。它将增加主题的吞吐量，这有助于debezium连接器更快地工作，也不使用json转换器-建议使用avro转换器！
另外，请为您的模式注册表使用负载平衡器
为了测试集群，您可以创建一个只有一个表的连接器（我指的是一个大表！）与 database.whitelist 并设置 snapshot.mode 至 initial 关于模式注册表！架构注册表用户kafka和zookeeper设置以下配置：

bootstrap.servers
kafkastore.connection.url

这就是shema注册表集群宕机的原因

apache kafka生产集群设置问题

1条答案

相关问题

热门标签

最新问答