如何在Ruby中进行模糊子字符串匹配？

eagi6jfj 于 2022-09-21 发布在 Ruby

关注(0)|答案(5)|浏览(215)

我找到了许多关于模糊匹配的链接，将一个字符串与另一个字符串进行比较，看看哪一个获得了最高的相似度分数。

我有一个非常长的字符串，它是一个文档，还有一个子字符串。子字符串来自原始文档，但已经被转换了几次，因此可能引入了奇怪的构件，例如这里的空格，那里的破折号。子字符串将与原始文档中的文本部分匹配99%或更多。我没有进行匹配以查看该字符串来自哪个文档，我正在尝试查找该字符串开始的文档中的索引。

如果字符串是相同的，因为没有引入随机错误，我将使用document.index(substring)，但是，如果有一个字符差异，这个操作就会失败。

我认为可以通过删除字符串和子字符串中除a-z以外的所有字符来说明差异，比较，然后使用我在压缩字符串时生成的索引，将压缩字符串中的索引转换为实际文档中的索引。这在空格和标点符号不同的地方运行得很好，但一旦一个字母不同，它就失败了。

文档通常是几页到一百页，子字符串从几个句子到几页。

ruby

来源：https://stackoverflow.com/questions/6093473/how-can-i-do-fuzzy-substring-matching-in-ruby

5条答案

按热度按时间

p8h8hvxi1#

你可以试试阿玛奇。它是一颗宝石般的宝石，虽然我很久没有用过模糊逻辑了，但它看起来有你需要的东西。Ammatch的主页是：https://github.com/flori/amatch。

只是无聊地胡乱处理这个想法，一个完全未经优化和未经测试的解决方案如下：

include 'amatch'

module FuzzyFinder
  def scanner( input )
    out = [] unless block_given?
    pos = 0
    input.scan(/(w+)(W*)/) do |word, white|
      startpos = pos
      pos = word.length + white.length
      if block_given?
        yield startpos, word
      else
        out << [startpos, word]
      end
    end
  end

  def find( text, doc )
    index = scanner(doc)
    sstr = text.gsub(/W/,'')
    levenshtein = Amatch::Levensthtein.new(sstr)
    minlen = sstr.length
    maxndx = index.length
    possibles = []
    minscore = minlen*2
    index.each_with_index do |x, i|
      spos = x[0]
      str = x[1]
      si = i
      while (str.length < minlen)
        i += 1
        break unless i < maxndx
        str += index[i][1]
      end
      str = str.slice(0,minlen) if (str.length > minlen)
      score = levenshtein.search(str)
      if score < minscore
        possibles = [spos]
        minscore = score
      elsif score == minscore
        possibles << spos
      end
    end
    [minscore, possibles]
  end
end

显然，有许多改进是可能的，也可能是必要的！以下是几个最重要的问题：

1.对文档进行一次处理，并将结果存储在数据库中。
1.确定初始检查的可用字符串长度，在尝试匹配整个片段之前，首先针对该初始子字符串进行处理。
1.跟进先前预先计算出的该长度的起始片段。

赞(0）回复(0）举报 2022-09-21

z31licg02#

简单的是fuzzy_match

require 'fuzzy_match'
FuzzyMatch.new(['seamus', 'andy', 'ben']).find('Shamus') #=> seamus

一个更详细的例子是levenshein，它计算差异的数量(但在本例中不会这么说)。

require 'levenshtein' 
Levenshtein.distance('test', 'test')    # => 0
Levenshtein.distance('test', 'tent')    # => 1

赞(0）回复(0）举报 2022-09-21

7jmck4yq3#

您应该查看下面详细介绍的StrikeAMMatch实现：A better similarity ranking algorithm for variable length strings

它不依赖于某种类型的字符串距离(即两个字符串之间的变化次数)，而是查看字符对模式。每个字符串中出现的字符对越多，匹配就越好。它在我们的应用程序中工作得很好，我们在纯文本文件中搜索输入错误的/可变长度的标题。

还有一个GEM结合了StrikeAMatch(Dice's coefficient在字符级二元语法上的实现)和Levenshtein距离来查找匹配项：https://github.com/seamusabshere/fuzzy_match

赞(0）回复(0）举报 2022-09-21

e5nszbig4#

这取决于可以在子字符串中结束的构件。在更简单的情况下，它们不是[a-z]的一部分，您可以使用解析子字符串，然后对文档使用Regexp#match：

document = 'Ulputat non nullandigna tortor dolessi illam sectem laor acipsus.'
substr = "tortor - dolessi _%&#   +illam"

re = Regexp.new(substr.split(/[^a-z]/i).select{|e| !e.empty?}.join(".*"))
md = document.match re
puts document[md.begin(0) ... md.end(0)]

# => tortor dolessi illam

(在这里，因为我们没有在Regexp中设置任何括号，所以我们在MatchData的第一个(完全匹配)元素0上使用begin和end。

如果您只对起始位置感兴趣，可以使用=~运算符：

start_pos = document =~ re

赞(0）回复(0）举报 2022-09-21

mo49yndu5#

我没有用过它们，但我在rubygems.org中搜索‘diff’就找到了一些库。它们都可以通过GEM进行安装。你可能想试一试。我自己也很感兴趣，所以如果你已经知道这些，或者如果你尝试过，如果你留下你的评论会很有帮助。

赞(0）回复(0）举报 2022-09-21

我来回答

如何在Ruby中进行模糊子字符串匹配？

5条答案

相关问题

热门标签

最新问答