我试图在同一Dataframe的两列中计算模糊分数(最好是部分比率分数)。
| column1 | column2|
| -------- | -------------- |
| emmett holt| holt
| greenwald| christopher
它需要像这样:
| column1 | column2|partial_ratio|
| -------- | -------------- |-----------|
| emmett holt| holt|100|
| greenwald| christopher|22|
|schaefer|schaefer|100|
在这个网站上的另一个问题的帮助下,我完成了以下代码:
compare=pd.MultiIndex.from_product([ dataframe['column1'],dataframe ['column2'] ]).to_series()
def metrics (tup):
return pd.Series([fuzz.partial_ratio(*tup)], ['partial_ratio'])
df['partial_ratio'] = df.apply(lambda x: fuzz.partial_ratio(x['original_title'], x['title']), axis=1)
但问题已经从返回以下错误通知的第一行代码开始:
无法将列转换为bool:在生成Dataframe布尔表达式时,请使用“&”表示“and”,使用“|”表示“or”,使用“~”表示“not”。
你可以说我有点困在这里,所以任何关于这方面的建议都是非常感谢的!
1条答案
按热度按时间oymdgrw71#
使用fuzzyfuzzy需要自定义项: