我正在探索如何设计一个爬虫是在谷歌规模,因此探索可能的解决方案使用Kafka。
最近我了解到kafka分区的数量限制在数千个,并且不能扩展到更多。而且每个分区都有一个线程(有或没有使用者组)也是众所周知的事实。
我的问题是如何建立高性能的爬虫与数以万计的平行工人爬行。
一个可能的解决方案是拥有数百个主题和数千个分区和使用者(数量相等)。
或者为每个分区的使用者提供一个线程池,如下图所示
有没有可能纠正/提出一个与Kafka合作的完美设计?
我正在探索如何设计一个爬虫是在谷歌规模,因此探索可能的解决方案使用Kafka。
最近我了解到kafka分区的数量限制在数千个,并且不能扩展到更多。而且每个分区都有一个线程(有或没有使用者组)也是众所周知的事实。
我的问题是如何建立高性能的爬虫与数以万计的平行工人爬行。
一个可能的解决方案是拥有数百个主题和数千个分区和使用者(数量相等)。
或者为每个分区的使用者提供一个线程池,如下图所示
有没有可能纠正/提出一个与Kafka合作的完美设计?
暂无答案!
目前还没有任何答案,快来回答吧!