我正在使用stormcrawler(v1.16)和elasticsearch(v7.5.0)。我已经成功地爬过了新闻网站。但是当我在seeds.txt中放置rss提要或站点Map时,它不是爬行。
myseeds.txt如下:
https://www.theguardian.com/world/eu/rss isFeed=true
https://www.theguardian.com/politics/rss isFeed=true
https://www.theguardian.com/science/rss isFeed=true
https://www.theguardian.com/education/rss isFeed=true
https://www.theguardian.com/football/rss isFeed=true
https://www.elwatannews.com/home/rssfeeds isFeed=true
向seeds.txt添加rss提要后的拓扑统计信息
[
我也提到了新闻爬网公共爬虫github,但我不明白它是如何工作的。我应该做什么样的改变,以便它也能抓取rss提要和站点Map。
1条答案
按热度按时间gj3fmq9x1#
放入种子文件的更改不会自动拾取。您需要重新启动拓扑。完成后,直接使用kibana或queryes检查种子url的状态以及它们可能选择的任何大纲链接。