如何在pandas中提取两个序列之间的字符串差异？

watbbzwu 于 2023-06-20 发布在其他

关注(0)|答案(1)|浏览(97)

def tokenize(s):
    return re.split('\s+', s)

def untokenize(ts):
    return ' '.join(ts)

def equalize(s1, s2):
    l1 = tokenize(s1)
    l2 = tokenize(s2)
    res1 = []
    res2 = []
    prev = difflib.Match(0,0,0)
    for match in difflib.SequenceMatcher(a=l1, b=l2).get_matching_blocks():
        if (prev.a + prev.size != match.a):
            for i in range(prev.a + prev.size, match.a):
                res2 += ['_' * len(l1[i])]
            res1 += l1[prev.a + prev.size:match.a]
        if (prev.b + prev.size != match.b):
            for i in range(prev.b + prev.size, match.b):
                res1 += ['_' * len(l2[i])]
            res2 += l2[prev.b + prev.size:match.b]
        res1 += l1[match.a:match.a+match.size]
        res2 += l2[match.b:match.b+match.size]
        prev = match
    return untokenize(res1), untokenize(res2)
    print(untokenize(res1), untokenize(res2))

下面是示例字符串的代码的输出：（'this is a test _______'，'this is a ____testing'）
但我想将它应用于跨两个不同列的pandas dataframe，并返回一个带有结果的新列。

pandas

来源：https://stackoverflow.com/questions/76478074/how-to-extract-string-difference-between-two-series-in-pandas

1条答案

按热度按时间

6ie5vjzr1#

你也许想试试

# Assuming your dataframe name to be "df"
df['colC'] = df.apply(lambda row: equalize(row['ColA'], row['ColB']),axis=1)

注意-设置轴=1将帮助您访问单个行的各个列。查找更多关于pandas apply here的信息。

赞(0）回复(0）举报 2023-06-20

我来回答

如何在pandas中提取两个序列之间的字符串差异？

1条答案

相关问题

热门标签

最新问答