使用风暴爬虫爬行

ygya80vv 于 2021-06-21 发布在 Storm

关注(0)|答案(1)|浏览(394)

我们正在尝试实现风暴爬虫抓取数据。我们已经能够找到子链接从一个网址，但我们想从这些子链接的内容。我没能找到多少资源来指导我如何得到它？在这方面任何有用的链接/网站都会有所帮助。谢谢。

apache-storm web-crawler stormcrawler

来源：https://stackoverflow.com/questions/41359082/crawling-using-storm-crawler

1条答案

按热度按时间

yk9xbfzb1#

入门，演讲和演讲，以及各种博客文章应该是有用的。
如果子链接被获取和解析（您可以在日志中检查），那么内容将可用于索引或存储（例如作为warc）。有一个虚拟索引器将内容转储到控制台，控制台可以作为一个起点，或者在elasticsearch或solr中有用于索引文档的资源。warc模块也可以用来存储页面的内容。

赞(0）回复(0）举报 2021-06-21

我来回答

使用风暴爬虫爬行

1条答案

相关问题

热门标签

最新问答