pandas 相邻列中的Python数据清理

0h4hbjxa 于 12个月前发布在 Python

关注(0)|答案(1)|浏览(99)

我有一个框架，其中“类型”列中的某些值不正确：
| ID|类型|其他数据|
| --|--|--|
| ABC|十点| 56 |
| ABC|十点| 34 |
| ABC| 0.0| 78 |
| DEF| 20.0| 45 |
| DEF| 0.0| 23 |
| ZWS| 20.0| 99 |
| TYH|十点| 12 |
| TYH|十点| 63 |
| FCE| 0.0| 56 |
| FCE| 20.0| 78 |
| XSA|十点| 74 |
| 红色|0.0| 55 |
| QWA| 20.0| 74 |
我想遍历每个ID，并确定Type是否等于0.0，然后将其替换为同一ID具有0.0以外的值的行中的值。如果没有其他行的ID，并且类型列中的值为0.0，则将其更改为Nan或99，以便稍后删除。
结果将是：第3行的ABC更改为第5行的10.0 DEF更改为第9行的20.0 FCE更改为第12行的20.0 RED更改为Nan或99，因为未找到等效匹配。
解决这个问题的最佳方法是什么？
我尝试过构建字典和循环，但我总是在replace 0.0中卡住等价键的值。

pandas

来源：https://stackoverflow.com/questions/77475598/python-data-clean-in-adjacent-columns

1条答案

按热度按时间

roejwanj1#

您可以使用布尔掩码隐藏等于0的行，然后按Type分组，并将最大值（NaN以外的任何值）广播到所有行：

m = df['Type'].eq(0)  # boolean mask
df['New Type'] = df['Type'].mask(m).groupby(df['ID']).transform('max')
print(df)

# Output
     ID  Type  Other Data  New Type
0   ABC  10.0          56      10.0
1   ABC  10.0          34      10.0
2   ABC   0.0          78      10.0  # 0.0 -> 10.0
3   DEF  20.0          45      20.0
4   DEF   0.0          23      20.0  # 0.0 -> 20.0
5   ZWS  20.0          99      20.0
6   TYH  10.0          12      10.0
7   TYH  10.0          63      10.0
8   FCE   0.0          56      20.0  # 0.0 -> 20.0
9   FCE  20.0          78      20.0
10  XSA  10.0          74      10.0
11  RED   0.0          55       NaN  # 0.0 -> NaN
12  QWA  20.0          74      20.0

字符串

赞(0）回复(0）举报 12个月前

我来回答

pandas 相邻列中的Python数据清理

1条答案

相关问题

热门标签

最新问答