什么是正确的方式来循环发现的网址回来获取它们?

pvabu6sv  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(249)

我已经开始使用默认拓扑,但是想做一个递归爬网。所以我必须修改flux文件,将发现的url循环回fetcher,我不确定哪种方法是最好的?
有没有一个很好的例子说明如何做到这一点?也许和elasticsearch一起工作?
你好,克里斯

qxgroojn

qxgroojn1#

运行递归爬网时,需要存储有关URL的信息。反馈到fetcher是不够的,因为它不会考虑重复项或给您任何调度控制。
外部模块中有许多可用的选项,elasticsearch就是其中之一,您还可以使用solr或sql后端。
有关如何将sc与es结合使用的教程,请参见我们的youtube频道。
有一个statusupdater的实现,它将发现的URL反馈回memoryspout,但这只对在本地模式下进行测试/调试有用。

相关问题