使用风暴爬虫爬行

ygya80vv  于 2021-06-21  发布在  Storm
关注(0)|答案(1)|浏览(395)

我们正在尝试实现风暴爬虫抓取数据。我们已经能够找到子链接从一个网址,但我们想从这些子链接的内容。我没能找到多少资源来指导我如何得到它?在这方面任何有用的链接/网站都会有所帮助。谢谢。

yk9xbfzb

yk9xbfzb1#

入门,演讲和演讲,以及各种博客文章应该是有用的。
如果子链接被获取和解析(您可以在日志中检查),那么内容将可用于索引或存储(例如作为warc)。有一个虚拟索引器将内容转储到控制台,控制台可以作为一个起点,或者在elasticsearch或solr中有用于索引文档的资源。warc模块也可以用来存储页面的内容。

相关问题