numpy 压缩数据集Pandas

oogrdqng  于 2022-11-23  发布在  其他
关注(0)|答案(1)|浏览(124)

我希望压缩我的数据集。本质上它是一个groupby。
数据

id  box     status
aa  box11   hey
aa  box11   hey
aa  box11   hey
aa  box11   hey
aa  box5    hello
aa  box5    hello
aa  box5    hello
aa  box5    hello
aa  box5    hello
bb  box8    no
bb  box8    no

所需

id  box     status
aa  box11   hey
aa  box5    hello
bb  box8    no

df1 = df.groupby(["id"])["box"]).agg()
k10s72fa

k10s72fa1#

DataFrame.drop_duplicates()
如果要小心排除“id”,可以使用subset关键字:

df1 = df.drop_duplicates(subset = ['box', 'status'])

编辑:为了澄清,drop_duplicates()只会删除整行重复的行。子集只是告诉它要考虑哪些行。如果你有一行box ='box8'和status ='hey',这一行不会删除。这两个都是重复的,但在一个唯一的组合。

相关问题