我用nutch和Elastisearch抓取/解析99个网站/链接,以便在Elasicsearch中索引它们,这样我就可以使用搜索引擎。它确实抓取了所有的99个网站/链接,但我得到的最终消息如下。我试图理解什么是重定向,添加/更新的意思?如果有可能找到哪些消失和重定向?
Indexer: number of documents indexed, deleted, or skipped:
Indexer: 5 deleted (gone)
Indexer: 8 deleted (redirects)
Indexer: 76 indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08
2条答案
按热度按时间pgccezyw1#
Nutch不知道一个页面是否已经在索引中,为了保持索引和爬取的内容同步,
-deleteGone
)从索引中删除404和其他失败的获取,并将其计为“gone”如果有可能找出哪些走了,重定向?
您可以使用Nutch工具
readdb
以转储爬网数据库readseg
,用于转储已编制索引的段然后搜索404s、获取失败、重定向等。分别调用
bin/nutch readdb
和bin/nutch readseg
将显示所有可用的命令行选项。siv3szwd2#
“消失”表示网站或文档不再可用。如果网站或文档已被删除或URL已更改,则可能发生这种情况。
“重定向”是指网站或文档已被移动到新的URL。当网站或文档被重定向时,旧的URL将自动重定向到新的URL。这通常是为了更新网站或文档的URL或将多个URL合并为一个。
“添加/更新”状态意味着网站或文档已成功编入索引,并作为新条目添加到Elasticsearch索引中,或在已存在的情况下进行更新。
要找出哪些网站或文档被删除或重定向,您可以查看日志或尝试访问网站或文档的URL,以查看它们是否仍然可用或是否重定向到新的URL。您还可以查看Elasticsearch索引,以查看网站或文档是否仍然存在。