如何爬网rss饲料或网站Map的新闻网站使用stormcrawler?

slsn1g29  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(344)

我正在使用stormcrawler(v1.16)和elasticsearch(v7.5.0)。我已经成功地爬过了新闻网站。但是当我在seeds.txt中放置rss提要或站点Map时,它不是爬行。
myseeds.txt如下:

https://www.theguardian.com/world/eu/rss    isFeed=true
https://www.theguardian.com/politics/rss    isFeed=true
https://www.theguardian.com/science/rss isFeed=true
https://www.theguardian.com/education/rss   isFeed=true
https://www.theguardian.com/football/rss    isFeed=true
https://www.elwatannews.com/home/rssfeeds   isFeed=true

向seeds.txt添加rss提要后的拓扑统计信息
[

我也提到了新闻爬网公共爬虫github,但我不明白它是如何工作的。我应该做什么样的改变,以便它也能抓取rss提要和站点Map。

gj3fmq9x

gj3fmq9x1#

放入种子文件的更改不会自动拾取。您需要重新启动拓扑。完成后,直接使用kibana或queryes检查种子url的状态以及它们可能选择的任何大纲链接。

相关问题