pandas 如何在 Dataframe 列中用最频繁的项填充NaN?

tv6aics1  于 2022-12-16  发布在  其他
关注(0)|答案(2)|浏览(137)

我有一个pandars DataFrame,它有两列:玩具和颜色。颜色列包含缺失值。
如何使用该特定玩具最常用的颜色来填充缺失的颜色值?
下面是创建示例数据集的代码:

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'toy':['car'] * 4 + ['train'] * 5 + ['ball'] * 3 + ['truck'],
    'color':['red', 'blue', 'blue', nan, 'green', nan,
             'red', 'red', np, 'blue', 'red', nan, 'green']
    })
tgabmvqs

tgabmvqs1#

相反,在nan和np上,您必须使用np。nan

>>> df = pd.DataFrame({
'toy':['car'] * 4 + ['train'] * 5 + ['ball'] * 3 + ['truck'],
'color':['red', 'blue', 'blue', np.nan, 'green', np.nan,
         'red', 'red', np.nan, 'blue', 'red', np.nan, 'green']
})
>>> df.color = df.color.fillna(method='mode')
    toy color
0   car red
1   car blue
2   car blue
3   car mode
4   train   green
5   train   mode
6   train   red
7   train   red
8   train   mode
9   ball    blue
10  ball    red
11  ball    mode
12  truck   green
2skhul33

2skhul332#

要创建一个数据框,我们需要导入Pandas。可以使用dataframe()函数创建数据框。dataframe()需要一个或两个参数。第一个参数是要填充到数据框表中的数据。

相关问题