我们正在尝试实现风暴爬虫抓取数据。我们已经能够找到子链接从一个网址,但我们想从这些子链接的内容。我没能找到多少资源来指导我如何得到它?在这方面任何有用的链接/网站都会有所帮助。谢谢。
yk9xbfzb1#
入门,演讲和演讲,以及各种博客文章应该是有用的。如果子链接被获取和解析(您可以在日志中检查),那么内容将可用于索引或存储(例如作为warc)。有一个虚拟索引器将内容转储到控制台,控制台可以作为一个起点,或者在elasticsearch或solr中有用于索引文档的资源。warc模块也可以用来存储页面的内容。
1条答案
按热度按时间yk9xbfzb1#
入门,演讲和演讲,以及各种博客文章应该是有用的。
如果子链接被获取和解析(您可以在日志中检查),那么内容将可用于索引或存储(例如作为warc)。有一个虚拟索引器将内容转储到控制台,控制台可以作为一个起点,或者在elasticsearch或solr中有用于索引文档的资源。warc模块也可以用来存储页面的内容。