我有一个数据框,如下所示,我希望检测重复的话,无论是在分裂或非分裂的话:
表A:
Cat Comments
Stat A power down due to electric shock
Stat A powerdown because short circuit
Stat A top 10 on re work
Stat A top10 on rework
我希望得到如下输出:
Repeated words= ['Powerdown', 'top10','on','rework']
有人有主意吗?
2条答案
按热度按时间unftdfkk1#
我假设 Dataframe 列中的单词与手头的问题实际上并不相关,因此我将把它们转移到一个列表中,然后搜索重复。
这导致
现在,我们创建一个新列表,以说明"top10"和"top10"应被同等对待的事实:
其产生:
最后,我们将列表扁平化,并使用
Counter
来查找出现不止一次的单词:导致
1sbrub3j2#
我们试试看:
输出: