如何爬网rss饲料或网站Map的新闻网站使用stormcrawler？

slsn1g29 于 2021-06-24 发布在 Storm

关注(0)|答案(1)|浏览(345)

我正在使用stormcrawler（v1.16）和elasticsearch（v7.5.0）。我已经成功地爬过了新闻网站。但是当我在seeds.txt中放置rss提要或站点Map时，它不是爬行。
myseeds.txt如下：

https://www.theguardian.com/world/eu/rss    isFeed=true
https://www.theguardian.com/politics/rss    isFeed=true
https://www.theguardian.com/science/rss isFeed=true
https://www.theguardian.com/education/rss   isFeed=true
https://www.theguardian.com/football/rss    isFeed=true
https://www.elwatannews.com/home/rssfeeds   isFeed=true

向seeds.txt添加rss提要后的拓扑统计信息
[

我也提到了新闻爬网公共爬虫github，但我不明白它是如何工作的。我应该做什么样的改变，以便它也能抓取rss提要和站点Map。