value_counts()上的Pandas数据错误未正确显示计数以清理数据

eyh26e7m 于 2023-04-19 发布在其他

关注(0)|答案(2)|浏览(155)

清理数据时，需要识别必须清理的特定列中的任何拼写错误，值为1或0，表示是或否。
查看错别字我尝试print(df["Column Name"].value_counts())
结果是
我尝试对Y使用replace命令，但结果是为一组1添加3，并且只显示1组和单个0组。
为什么相同的类型被分为两种类型？如何将字符串修改为Numbers并得到以下结果
我尽力了

df["Column Name"].str.strip()
df["Column Name"].replace(" 1","1")
df["Column Name"].replace("Y","1")

pandas

来源：https://stackoverflow.com/questions/75978232/pandas-data-error-on-value-counts-does-not-display-the-count-correctly-to-clea

2条答案

按热度按时间

l7mqbcuq1#

转换数据的可靠方法可能是：

df = pd.DataFrame({'Column Name': [0, 1, '1', '1 ', '  1 ', 'Y', 'N']})

mapper = {'Y': 1, 'N': 0}

df['out'] = df['Column Name'].astype(str).str.strip().replace(mapper)#.astype(int)

输出：

Column Name out
0           0   0
1           1   1
2           1   1
3          1    1
4          1    1
5           Y   1
6           N   0

赞(0）回复(0）举报 2023-04-19

up9lanfz2#

使用pd.to_numeric：

df['Column Name'] = pd.to_numeric(df["Column Name"].str.strip().replace({'Y': 1, 'N': 0}))
df.value_counts()

尝试使用np.unique检查 Dataframe ：

import numpy as np

np.unique(df['Column Name'], return_counts=True)

未经修改：

>>> df['Column Name'].value_counts(sort=False)
1     40
1     67
0     89
0     33
Y      3
Name: Column Name, dtype: int64

修改后：

>>> pd.to_numeric(df["Column Name"].str.strip().replace({'Y': 1, 'N': 0})).value_counts()
0    122
1    110
Name: Column Name, dtype: int64

赞(0）回复(0）举报 2023-04-19

我来回答

value_counts()上的Pandas数据错误未正确显示计数以清理数据

2条答案

相关问题

热门标签

最新问答