如何在分布式模式下设置我的Kafka连接以获得更好的性能

jfewjypa  于 2021-06-05  发布在  Kafka
关注(0)|答案(1)|浏览(274)

我正在分布式模式下运行kafka connect进行ElasticSearch。目前我有2个ec2示例(示例类型t2.2xlarge)

Number of vCPUs 8
Memory  32 Gb

我在上面的示例类型上运行kafka connect,最大任务为2。我计划把生产者将把唱片放入使用Kafka连接到ElastCasearch沉重的投入。
重击意味着每秒10000次。
记住这一点,我应该如何创建Kafka连接。
例如
需要多少个任务来处理这个问题,这样记录才能更快地进入es?
2个ec2示例是否足以承受此负载,或者我是否需要更多?
一个ec2示例可以创建多少个任务?
有一个更大的ec2更好还是有多个示例更小的ec2更好?
我怎样才能确认所有的记录都是使用Kafka连接从Kafka主题到es的?
我该如何衡量我的Kafka连接性能?
我现在没有使用任何模式注册表。
请建议

6za6bjd0

6za6bjd01#

我有2个ec2示例
所以你只能运行2个工人。添加更多(在不同的az中)以获得更好的容错性。您需要添加cpu和内存监控,以确定是否应该添加更多示例。
在上述示例类型上运行kafka connect,最大任务为2。
您可以拥有与输入主题分区一样多的任务。
每秒10000条记录
Kafka当然能应付。您需要分别对es索引器进行基准测试。
如何使用kafka connect确认所有记录都已从kafka主题请求到es
您将监视使用者组延迟,与任何其他使用者任务相同
一个较大的ec2更好,或者多个示例较小的ec2更好
“更好”是相对的。如果您希望性能优于成本,那么选择更大的示例并分配更多的堆空间。

相关问题