我已经开始使用默认拓扑,但是想做一个递归爬网。所以我必须修改flux文件,将发现的url循环回fetcher,我不确定哪种方法是最好的?有没有一个很好的例子说明如何做到这一点?也许和elasticsearch一起工作?你好,克里斯
qxgroojn1#
运行递归爬网时,需要存储有关URL的信息。反馈到fetcher是不够的,因为它不会考虑重复项或给您任何调度控制。外部模块中有许多可用的选项,elasticsearch就是其中之一,您还可以使用solr或sql后端。有关如何将sc与es结合使用的教程,请参见我们的youtube频道。有一个statusupdater的实现,它将发现的URL反馈回memoryspout,但这只对在本地模式下进行测试/调试有用。
1条答案
按热度按时间qxgroojn1#
运行递归爬网时,需要存储有关URL的信息。反馈到fetcher是不够的,因为它不会考虑重复项或给您任何调度控制。
外部模块中有许多可用的选项,elasticsearch就是其中之一,您还可以使用solr或sql后端。
有关如何将sc与es结合使用的教程,请参见我们的youtube频道。
有一个statusupdater的实现,它将发现的URL反馈回memoryspout,但这只对在本地模式下进行测试/调试有用。