from fuzzysearch import find_near_matches
with open('path/to/file', 'r') as f:
data = f.read()
# 1. search allowing up to 3 substitutions
matches = find_near_matches("ACTGGGTAAACTA", data, max_substitutions=3)
# 2. also allow insertions and deletions, i.e. allow an edit distance
# a.k.a. Levenshtein distance of up to 3
matches = find_near_matches("ACTGGGTAAACTA", data, max_l_dist=3)
5条答案
按热度按时间mjqavswn1#
曾经有一个叫做
agrep
的工具用于模糊正则表达式匹配,但是后来被放弃了。http://en.wikipedia.org/wiki/Agrep有一些历史和相关工具的链接。
https://github.com/Wikinaut/agrep看起来像是一个复兴的开源版本,但是我还没有测试过它。
如果做不到这一点,看看是否可以为您的发行版找到
tre-agrep
。gblwokeq2#
您可以使用
tre-agrep
并通过-E
开关指定edit distance。例如,如果您有一个文件foo
:您可以使用最大为9的编辑距离匹配每一行,如下所示:
输出:
raogr8fs3#
有一个名为fuzzysearch的Python库(我编写的),它精确地提供了所需的功能。
下面是一些应该可以工作的示例代码:
vyswwuz24#
简短回答:没有。
详细答案:正如@JDB所说,regex天生就很精确。您可以手动添加
[ATGC]
这样的不匹配项,而不是在某些地方添加A
,但无法只允许少量的不匹配项。我建议您编写自己的代码来解析它,或者尝试在某处找到DNA解析器。muk1a3rh5#
记住GNU/Linux philosophy,特别是模块化概念,它使我们能够独立地处理小而强大的部分,我们可以聚集一堆这些小部分来创造奇迹,这就是GNU/Linux的美妙之处
检查
fzf
here:)编辑
也可以工作,因为您将
file
重定向到STDIN,fzf
从中读取。