我有这个数据框
在列stage
中,I具有4个值:
我在这个数据框中有重复的行,我想删除它们,例如:
我想保留#8015行
并且我没有两行具有相同的stage
和相同的tweet_id
,例如:
我尝试了这个解决方案:
twitter_archive = twitter_rchive.sort_values(by='stage', ascending=False).drop_duplicates(subset='tweet_id', keep='first').sort_index().reset_index(drop=True)
我在这个解决方案中找到了它,但是我已经失去了10 doggo
,尽管我对我的值进行了排序并保留了第一次出现。
2条答案
按热度按时间jdgnovmf1#
你在找这个吗?
2hh7jdfx2#
首先,您的行中有一个错字:
第二,如果你想保留stage的value,使用.isnull()删除stage = NaN:
希望这对你有帮助