python pandas：使用sort_values和drop_duplicates复制行

42fyovps 于 2023-09-29 发布在 Python

关注(0)|答案(2)|浏览(89)

我有这个数据框

在列stage中，I具有4个值：

我在这个数据框中有重复的行，我想删除它们，例如：

我想保留#8015行
并且我没有两行具有相同的stage和相同的tweet_id，例如：

我尝试了这个解决方案：

twitter_archive = twitter_rchive.sort_values(by='stage', ascending=False).drop_duplicates(subset='tweet_id', keep='first').sort_index().reset_index(drop=True)

我在这个解决方案中找到了它，但是我已经失去了10 doggo，尽管我对我的值进行了排序并保留了第一次出现。

python

来源：https://stackoverflow.com/questions/69143886/python-pandas-duplicated-rows-using-sort-values-and-drop-duplicates

2条答案

按热度按时间

jdgnovmf1#

你在找这个吗？

df = pd.DataFrame([{'tweet_id':89324938479283648628, 'name':'Phineas', 'stage': np.nan}, 
                   {'tweet_id':8932493847987465848628, 'name':'Tilly', 'stage': np.nan}, 
                  {'tweet_id':8932493847987465848628, 'name':'Tilly', 'stage': 'Doggo'}])
df = df.groupby(['tweet_id','name']).agg(tuple).applymap(list).reset_index()
df['stage'] = df['stage'].apply(lambda x : [i for i in x if str(i) != 'nan'])
df['stage'] = df['stage'].apply(lambda x : np.nan if len(x) == 0 else x[0])
df

赞(0）回复(0）举报 2023-09-29

2hh7jdfx2#

首先，您的行中有一个错字：

twitter_archive = twitter_rchive.sort_values(  #<-- you missing a in archive.sort
...

第二，如果你想保留stage的value，使用.isnull（）删除stage = NaN：

twitter_arc2 = twitter_archive.loc[twitter_archive['stage'].isnull()]

希望这对你有帮助

赞(0）回复(0）举报 2023-09-29

我来回答

python pandas：使用sort_values和drop_duplicates复制行

2条答案

相关问题

热门标签

最新问答