关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗?**通过编辑这个帖子来添加细节并澄清问题。
14天前关门了。
改进这个问题
我的数据库中有这样一个表:
I条款标题签名1第1条标题签名………第N条标题签名
有没有算法为相似的标题生成相同的“签名”。所以当我想得到所有类似的标题,我只会得到具有相同签名的文章。
类似标题示例:
“covid-19是一种新兴的、快速发展的情况。”
“covid-19是一种新兴的、不断发展的情况。”
附言:我测试了md5后,删除停止词的标题,但它是没有效率的。
1条答案
按热度按时间bvpmtnay1#
这是一个寻找相似性的解决方案,(而不是“语义相似性”!):
假设我们有table
covid
这样地:执行此操作时:
你应该得到这样的结果:
基于
count
,你现在知道line
他在table上covid
有相同的词。如果您想将其扩展为“类似”,您可能应该:
跳过少于x个字符(即少于3个)的单词
对“情境”中的“.”做些什么。(和其他标点符号)
所以,要有“符号相似性”确实是一条很长的路。