我已经阅读了整个文件从建议的网站http://kafka.apache.org/ 无法理解硬件要求1) 我需要一个澄清:有多少分区和复制需要收集最少50gb的数据每天为一个主题2) 假定0000000000000.log文件最多可以存储100gb的数据。是否可以减小此日志文件的大小以减少i/o的使用?
b4qexyjb1#
1.选中此链接,即可选择分区:http://www.confluent.io/blog/how-to-choose-the-number-of-topicspartitions-in-a-kafka-cluster/][1]是的,在kafka中可以更改日志文件的最大大小。您必须在每个代理上设置下面提到的属性,然后重新启动代理。log.segment.bytes=1073741824上面的行将日志段大小设置为1gb。
gkn4icbw2#
如果数据是全天统一接收的,这意味着你需要每秒接收大约600kb的数据,所有这些都取决于600kb上的消息数(根据jay creps的解释,您需要计算每条消息22字节的开销)(请记住,您确认来自生产者的消息的方式也非常重要)但是您应该能够使用1个主题和1个分区从生产者那里获得这个吞吐量。
2条答案
按热度按时间b4qexyjb1#
1.选中此链接,即可选择分区:
http://www.confluent.io/blog/how-to-choose-the-number-of-topicspartitions-in-a-kafka-cluster/][1]
是的,在kafka中可以更改日志文件的最大大小。您必须在每个代理上设置下面提到的属性,然后重新启动代理。
log.segment.bytes=1073741824
上面的行将日志段大小设置为1gb。
gkn4icbw2#
如果数据是全天统一接收的,这意味着你需要每秒接收大约600kb的数据,所有这些都取决于600kb上的消息数(根据jay creps的解释,您需要计算每条消息22字节的开销)(请记住,您确认来自生产者的消息的方式也非常重要)
但是您应该能够使用1个主题和1个分区从生产者那里获得这个吞吐量。