我试图在pandas数据框MultiIndex中将nan替换为None。在MultiIndex中似乎None被转换为nan(但在其他索引类型中没有)。
以下不起作用(摘自问题Replace NaN in DataFrame index)
df = pd.DataFrame([['a', True, 1], ['b', True, 2], ['c', False, 3], ['d', None, 4]], columns=['c1', 'c2', 'c3'])
df.set_index(['c1','c2'], inplace=True)
df.index = pd.MultiIndex.from_frame(df.index.to_frame().fillna(np.nan).replace([np.nan], [None]))
df
c3
c1 c2
a True 1
b True 2
c False 3
d NaN 4
type(df.index[3][1])
<class 'float'>
也没有
index_tuples = [tuple(row) for row in df.index.to_frame().fillna(np.nan).replace([np.nan], [None]).values]
pd.MultiIndex.from_tuples(index_tuples)
MultiIndex([('a', True),
('b', True),
('c', False),
('d', nan)],
)
type(df.index[3][1])
<class 'float'>
似乎None在MultiIndex中转换为NaN。
PS.它适用于其他索引类型:
df = pd.DataFrame([['a', True, 1], ['b', True, 2], ['c', False, 3], ['d', None, 4]], columns=['c1', 'c2', 'c3'])
df.set_index('c2', inplace=True)
>>> df
c1 c3
c2
True a 1
True b 2
False c 3
NaN d 4
>>> df.index = df.index.fillna(value=np.nan).to_series().replace([np.nan], [None])
>>> df
c1 c3
c2
True a 1
True b 2
False c 3
NaN d 4
>>> type(df.index[3])
<class 'NoneType'>
>>>
2条答案
按热度按时间wydwbb8l1#
我设法做到这一点的唯一方法是直接操作numpy数组。似乎pandas中的
MultiIndex
对None
值的任何赋值都会导致转换为NaN
结果:
pes8fvy92#
我认为Pandas确实有一个bug。但是在类似的情况下,下面的方法对我很有效:
df = df.set_index(pf.MultiIndex.from_product(df.index.levels))
错误是
df.index.levels
是相同的,有或没有扩展索引。