我使用kafka connect s3将记录推送到aws s3存储桶中,我们使用timebasedpartioner处理s3.sink.properties,我们每秒只注意到10条记录。请指导提高吞吐量。
lg40wkob1#
您的问题提到了“数据包传输”,但是考虑到Kafka记录的最大大小默认为1mb,并且在网络上的10mb文件中,可能会有很多数据包。。。归根结底,网络并不是唯一的因素。您至少需要考虑您的isp费率(假设connect没有在aws中运行,如果您想节省$的vpc/s3接收费用,就应该这样做),然后查看生产商实际向主题发送了多少数据。一旦确定,由于您使用基于时间的分区器,您就没有提到您的时间段、刷新大小或刷新间隔(是否已计划)。如果您有一个每日分区,并且刷新设置高得离谱,那么在s3中当然几乎没有数据。您可以通过增加 comsumer.max.poll.records ,并降低刷新设置 s3.part.size ,但最初的想法表明这不是你的问题。
comsumer.max.poll.records
s3.part.size
1条答案
按热度按时间lg40wkob1#
您的问题提到了“数据包传输”,但是考虑到Kafka记录的最大大小默认为1mb,并且在网络上的10mb文件中,可能会有很多数据包。。。
归根结底,网络并不是唯一的因素。您至少需要考虑您的isp费率(假设connect没有在aws中运行,如果您想节省$的vpc/s3接收费用,就应该这样做),然后查看生产商实际向主题发送了多少数据。
一旦确定,由于您使用基于时间的分区器,您就没有提到您的时间段、刷新大小或刷新间隔(是否已计划)。如果您有一个每日分区,并且刷新设置高得离谱,那么在s3中当然几乎没有数据。
您可以通过增加
comsumer.max.poll.records
,并降低刷新设置s3.part.size
,但最初的想法表明这不是你的问题。