我有 Dataframe 如下:
| 身份证|价值|日期|
| - ------|- ------|- ------|
| 零零一|真的|2022年1月1日00:00:00|
| 002|假|2022年3月1日00:00:00|
| 零零三|真的|2022年3月1日00:00:00|
| 零零一|假|2022年1月1日01:30:00|
| 零零一|真的|2022年1月1日01:30:00|
| 002|真的|2022年3月1日00:00:00|
| 零零三|真的|2022年3月1日00时30分|
| 004|假|2022年3月1日00时30分|
| 005|假|2022年1月1日00:00:00|
原始 Dataframe 中有一些重复行,我希望根据以下条件删除重复行:
- 如果同一日期和同一时间存在重复的ID,请选择值为"True"的行(例如,ID = 002)
- 如果存在具有相同值的重复ID,请选择具有最新日期和时间的行(例如,ID == 003)
- 如果存在重复的ID,请选择日期和时间最新的行,并选择值为"True"的行(例如,ID == 001)
预期产出:
| 身份证|价值|日期|
| - ------|- ------|- ------|
| 零零一|真的|2022年1月1日01:30:00|
| 002|真的|2022年3月1日00:00:00|
| 零零三|真的|2022年3月1日00时30分|
| 004|假|2022年3月1日00时30分|
| 005|假|2022年1月1日00:00:00|
有人能建议我如何删除重复的 Dataframe 基于上述条件?
谢谢。
1条答案
按热度按时间qv7cva1a1#
看起来你只需要在删除重复数据之前对 Dataframe 进行排序。
打印(输出)
产出