我希望压缩我的数据集。本质上它是一个groupby。
数据
id box status
aa box11 hey
aa box11 hey
aa box11 hey
aa box11 hey
aa box5 hello
aa box5 hello
aa box5 hello
aa box5 hello
aa box5 hello
bb box8 no
bb box8 no
所需
id box status
aa box11 hey
aa box5 hello
bb box8 no
做
df1 = df.groupby(["id"])["box"]).agg()
1条答案
按热度按时间k10s72fa1#
DataFrame.drop_duplicates()
如果要小心排除“id”,可以使用subset关键字:
编辑:为了澄清,drop_duplicates()只会删除整行重复的行。子集只是告诉它要考虑哪些行。如果你有一行box ='box8'和status ='hey',这一行不会删除。这两个都是重复的,但在一个唯一的组合。