在storm crawler 1.12.1和elastic search 6.5.2上工作。我需要提高我的搜索引擎的效率。在将文档索引到ElasticSearch后,出于安全原因,我删除了一些文档。所以我的问题是,风暴爬虫将重新抓取删除的网址和重新索引?我不想重新爬网删除的记录,我如何才能做到这一点?
mfpqipee1#
我假设你从内容索引中删除了文档。它们可能仍在状态索引中,即使不在状态索引中,它们也可能被重新发现并添加回来。最好的办法是向您正在使用的urlfilters中添加新条目,这样就可以覆盖这些URL,这样,如果重新发现这些URL,它们就不会被添加回去,然后从状态索引中删除它们。
1条答案
按热度按时间mfpqipee1#
我假设你从内容索引中删除了文档。它们可能仍在状态索引中,即使不在状态索引中,它们也可能被重新发现并添加回来。
最好的办法是向您正在使用的urlfilters中添加新条目,这样就可以覆盖这些URL,这样,如果重新发现这些URL,它们就不会被添加回去,然后从状态索引中删除它们。