我有一个csv文件,有4列,分别是“学生名”、“父亲名”、“通过日期”、“入学编号”。csv文件中有5亿行。现在我必须对两列(学生名、父亲名)进行模糊搜索,并检索其他列(通过日期、入学号),所以输入的是学生名、父亲名。
我花了几个小时在google上寻找解决这个问题的方法,并在ApacheSolr(underhood lucene)上找到了模糊匹配的方法。我知道ApacheSolr是一个基于RESTAPI的开源企业实时搜索引擎。它是一个高性能和全功能的文本搜索引擎库。lucene提供了强大的功能,如文档的可扩展和高性能索引。我跟着林克
https://mkyong.com/solr/apache-solr-hello-world-example/
安装后,我访问了链接
http://localhost:8983/solr/bigboxstore/select?indent=on&q=name:'alaistiar~'&wt=json
它显示了我的结果,在输入的基础上,我应该考虑完整的结果集,或者我应该根据分数来限制结果,或者有其他的方法来做吗?我知道分数是由lucene根据指数统计确定的相对值。
对于ApacheSolr中的模糊搜索,我有以下查询
1下面的url是否是在应用程序中使用apache solr实现模糊搜索的正确方法?http://localhost:8983/solr/bigboxstore/select?indent=on&q=name:“alaistiar~”&wt=json
对于模糊搜索,在Apache SoR中,我应该考虑从点1返回的完整结果集,还是应该根据分数来限制结果,或者有其他方法来做吗?
我如何分别找出学生名和父亲名的相似性标准(90%以上)?
暂无答案!
目前还没有任何答案,快来回答吧!