我想用“相同”这个词来改变重复的评论,但是保留原来的评论,并像下面这样改变ID。但是,有些评论并不完全匹配,比如最后三条。
df = {'Key': ['111', '111','111', '222*1','222*2', '333*1','333*2', '333*3','444','444', '444'],
'id' : ['', '','', '1','2', '1','2', '3','', '','',],
'comment': ['wrong sentence', 'wrong sentence','wrong sentence', 'M','M', 'F','F', 'F','wrong sentence used in the topic', 'wrong sentence used','wrong sentence use']}
# Create DataFrame
df = pd.DataFrame(df)
print(df)
输入:
预期输出:
2条答案
按热度按时间8aqjt8rx1#
产出
这里,contains被用来匹配"错误句子",结果是一个布尔掩码。
Groupby应用于'Key'列,分组结果传递给用户定义函数:
my_func
。在条件被检查的情况下,字符串大于1,字符串大于1并且匹配单词"错误句子"。loc用于重置值。
rt4zxlrg2#
use:
如果需要,还可按
Key
组重复检测: