我有一个 MongoDB
表格文件的收集
{
"id": 42,
"title": "candy can",
"description": "canada candy canteen",
"brand": "cannister candid",
"manufacturer": "candle canvas"
}
我需要实现自动完成功能的基础上输入的搜索词匹配的领域除了 id
. 例如,如果输入项是 can
,那么我应该返回文档中所有匹配的单词
{ hints: ["candy", "can", "canada", "canteen", ...]
我看了这个问题,但没用。我也试着搜索怎么做 regex
在多个字段中搜索并提取匹配的令牌,或者在mongodb中提取匹配的令牌 text search
但找不到任何帮助。
1条答案
按热度按时间zlhcx6iw1#
热释光;博士
对于您想要的内容没有简单的解决方案,因为普通查询无法修改它们返回的字段。有一个解决方案(使用下面的mapreduce内联,而不是对集合进行输出),但是除了非常小的数据库之外,不可能实时地这样做。
问题
如前所述,普通查询不能真正修改它返回的字段。但还有其他问题。如果您想在适当的时间内完成regex搜索,您必须索引所有字段,这将需要不成比例的ram来实现该功能。如果不为所有字段编制索引,regex搜索将导致集合扫描,这意味着每个文档都必须从磁盘加载,这将花费太多时间自动完成,不方便。此外,多个同时请求自动完成的用户将在后端造成相当大的负载。
解决方案
这个问题与我已经回答过的问题非常相似:我们需要从多个字段中提取每个单词,删除停止词,并将剩余的单词连同指向在集合中找到的相应文档的链接一起保存。现在,为了获得自动完成列表,我们只需查询索引单词列表。
步骤1:使用map/reduce作业提取单词
对您的示例运行此mapreduce将导致
db.words
像这样:请注意,单个单词是
_id
文件的一部分。这个_id
字段由mongodb自动索引。由于索引试图保存在ram中,我们可以做一些技巧来加速自动完成和减少服务器的负载。第2步:查询自动完成
对于自动完成,我们只需要单词,而不需要指向文档的链接。因为单词被编入索引,所以我们使用一个覆盖查询——一个只从索引中回答的查询,它通常驻留在ram中。
为了坚持您的示例,我们将使用以下查询来获取自动完成的候选项:
这给了我们结果
使用
.explain()
方法,我们可以验证此查询是否仅使用索引。注意
indexOnly:true
现场。第三步:查询实际单据
尽管我们必须进行两次查询才能得到实际的文档,但是由于我们加快了整个过程,因此用户体验应该足够好。
步骤3.1:获取单词集合的文档
当用户选择自动补全时,我们必须查询单词的完整文档,以便找到选择自动补全的单词来源的文档。
会产生这样的文件:
步骤3.2:获取实际文档
使用该文档,我们现在可以显示包含搜索结果的页面,也可以像本例一样重定向到您可以通过以下方式获得的实际文档:
注意事项
虽然这种方法一开始看起来可能很复杂(好吧,mapreduce有点复杂),但实际上从概念上讲是相当简单的。基本上,你是在用实时结果来换取速度(除非你花费大量内存,否则你无论如何都不会得到实时结果)。伊莫,那是笔好买卖。为了使代价高昂的mapreduce阶段更加高效,实现增量mapreduce可能是一种方法——改进我公认的被黑客攻击的mapreduce可能是另一种方法。
最后但并非最不重要的是,这种方式是一个相当丑陋的黑客。你可能想深入研究elasticsearch或lucene。我的那些产品非常非常适合你的需要。