solr—使用stormcrawler进行重复数据消除

avkwfej4  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(410)

我发现stormcrawler中还不支持文档重复数据消除。这是不是在酝酿未来?我这样问是因为我看到签名元数据可以添加到status核心中,并且可以用于在索引之前删除具有相同签名值的重复项。只是一个想法,如果我想的方向是正确的?
谢谢,
苏曼

kupeojn6

kupeojn61#

md5signatureparsefilter根据文档的内容计算签名。这用于自适应调度,以确定文档是否已更改。您可以将相同的元数据索引到solr中以进行重复数据消除,例如,将其用作文档的主键。由于stormcrawler孤立地查看每个文档,因此很难像nutch使用mapreduce那样对副本执行操作。一种选择是让一个外部进程直接将重复项解析到索引后端(例如solr),但这将在stormcrawler之外,并且依赖于后端。
简而言之,如果您可以使用哈希作为重复数据消除的主键,那么您就已经拥有了所需的所有元素,但这可能是stormcrawler所能做到的。
我发现stormcrawler中还不支持文档重复数据消除。
你在哪里看到的?

相关问题