我正在解析网络上的文档,并将它们存储在solr数据库中。每天我都会看到成千上万的文档,其中一些是重复的。
我想为用户提供一个选项来查看在给定日期或给定时间范围内最常看到的文档。感兴趣的查询对应于:
-show me which documents were seen the most on 16/10/2022,
-show me which documents were seen the most between 16/10/2022 and 23/10/2022
在编写solr查询时,您需要指定要搜索的字段名称。我应该使用什么字段类型?我应该以什么格式存储文档在给定日期被查看的次数?
1条答案
按热度按时间4sup72z81#
我将如何尝试:
这将按MONTH返回所有视图(可以将其更改为DAY、YEAR等)。
但是您的文档对于这个解决方案来说可能太大了。
从solr 8.6开始,你现在可以在多个碎片上进行跨集合连接。
JOIN查询将 * 快得多 *。
如果您不想执行JOIN查询:
其他想法: