我有一个DF,看起来像这样:
Row Master Option1 Option2
1 00150042 plc WAGON PLC wegin llp
2 01 telecom, ltd. 01 TELECOM LTD telecom 1
3 0404 investments limited 0404 Investments Ltd 404 Limited Investments
我尝试做的是将option1
和option2
列分别与主列进行比较,并获得每个列的相似性得分。
我已经得到了提供分数的代码:
from difflib import SequenceMatcher
def similar(a, b):
return SequenceMatcher(None, a, b).ratio()
我需要帮助的是如何实现这个逻辑。
它是否是一个for循环,将迭代Option1和master列,将分数保存在名为Option1_score的新列中,然后对Option2列执行相同的操作?
任何帮助都是高度赞赏!
1条答案
按热度按时间wsewodh21#
使用您提供的 Dataframe :
下面是使用Python f字符串和Pandas apply的一种方法:
然后: