elasticsearch Nutch/Elastic检索词定义

gev0vcfq  于 2022-12-22  发布在  ElasticSearch
关注(0)|答案(2)|浏览(133)

我用nutch和Elastisearch抓取/解析99个网站/链接,以便在Elasicsearch中索引它们,这样我就可以使用搜索引擎。它确实抓取了所有的99个网站/链接,但我得到的最终消息如下。我试图理解什么是重定向,添加/更新的意思?如果有可能找到哪些消失和重定向?

Indexer: number of documents indexed, deleted, or skipped:
Indexer:      5  deleted (gone)
Indexer:      8  deleted (redirects)
Indexer:     76  indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08
pgccezyw

pgccezyw1#

Nutch不知道一个页面是否已经在索引中,为了保持索引和爬取的内容同步,

  • 成功获取的页将发送到索引,并计为添加或更新
  • (使用索引器选项-deleteGone)从索引中删除404和其他失败的获取,并将其计为“gone”
  • 与重定向相同,但单独计为“重定向”

如果有可能找出哪些走了,重定向?
您可以使用Nutch工具

  • readdb以转储爬网数据库
  • readseg,用于转储已编制索引的段

然后搜索404s、获取失败、重定向等。分别调用bin/nutch readdbbin/nutch readseg将显示所有可用的命令行选项。

siv3szwd

siv3szwd2#

“消失”表示网站或文档不再可用。如果网站或文档已被删除或URL已更改,则可能发生这种情况。
“重定向”是指网站或文档已被移动到新的URL。当网站或文档被重定向时,旧的URL将自动重定向到新的URL。这通常是为了更新网站或文档的URL或将多个URL合并为一个。
“添加/更新”状态意味着网站或文档已成功编入索引,并作为新条目添加到Elasticsearch索引中,或在已存在的情况下进行更新。
要找出哪些网站或文档被删除或重定向,您可以查看日志或尝试访问网站或文档的URL,以查看它们是否仍然可用或是否重定向到新的URL。您还可以查看Elasticsearch索引,以查看网站或文档是否仍然存在。

相关问题