什么是正确的方式来循环发现的网址回来获取它们？

pvabu6sv 于 2021-06-24 发布在 Storm

关注(0)|答案(1)|浏览(248)

我已经开始使用默认拓扑，但是想做一个递归爬网。所以我必须修改flux文件，将发现的url循环回fetcher，我不确定哪种方法是最好的？
有没有一个很好的例子说明如何做到这一点？也许和elasticsearch一起工作？
你好，克里斯

apache-storm web-crawler stormcrawler

来源：https://stackoverflow.com/questions/56950525/what-is-the-proper-way-to-loop-discovered-urls-back-to-fetch-them

1条答案

按热度按时间

qxgroojn1#

运行递归爬网时，需要存储有关URL的信息。反馈到fetcher是不够的，因为它不会考虑重复项或给您任何调度控制。
外部模块中有许多可用的选项，elasticsearch就是其中之一，您还可以使用solr或sql后端。
有关如何将sc与es结合使用的教程，请参见我们的youtube频道。
有一个statusupdater的实现，它将发现的URL反馈回memoryspout，但这只对在本地模式下进行测试/调试有用。

赞(0）回复(0）举报 2021-06-24

我来回答

什么是正确的方式来循环发现的网址回来获取它们？

1条答案

相关问题

热门标签

最新问答