pandas 如何保持每个索引一列的值？

oalqel3c 于 2023-04-19 发布在其他

关注(0)|答案(3)|浏览(115)

考虑以下Pandas dataframe：

col_a  col_b  col_c
0   10     15     20
0   10     15     20
1   10     15     20
1   10     15     20
1   10     15     20
1   10     15     20
2   10     15     20

现在，让我们考虑我们想要以下Map：

{
  0: 'col_a',
  1: 'col_b',
  2: 'col_c'
}

Map本质上决定了我们应该为每个索引保留哪一列！
输出df：

到目前为止，我有这样的东西：

keep_cols = [(0, 'col_a'), (1, 'col_b'), (2, 'col_c')]

output = pd.concat([df.loc[df['index_col'] == idx, col] for idx, col in keep_cols], axis=1)

然而，我在实际连接它们之前创建了子dfs，我想就性能而言，这是次优的！

pandas

来源：https://stackoverflow.com/questions/75984675/how-to-keep-the-values-of-one-column-per-index

3条答案

按热度按时间

fnx2tebb1#

对map使用索引查找：

mapper = {
  0: 'col_a',
  1: 'col_b',
  2: 'col_c'
}

idx, cols = pd.factorize(df.index.map(mapper))

df['column'] = df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx]

输出：

col_a  col_b  col_c  column
0     10     15     20      10
0     10     15     20      10
1     10     15     20      15
1     10     15     20      15
1     10     15     20      15
1     10     15     20      15
2     10     15     20      20

如果要将Series或新DataFrame作为输出：

out = pd.Series(df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx], index=df.index)

# or
out = pd.DataFrame({'column': df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx]}, index=df.index)

输出：

# Series
0    10
0    10
1    15
1    15
1    15
1    15
2    20
dtype: int64

# DataFrame
   column
0      10
0      10
1      15
1      15
1      15
1      15
2      20

替代

为了好玩，这里有另一个使用stack的替代方法，如果每行只有一个匹配：

# stack the dataframe
s = df.stack()

# identify the matches
m = s.index.get_level_values(0).map(mapper) == s.index.get_level_values(1)

# keep only the matches
out = s[m].droplevel(1)

输出：

0    10
0    10
1    15
1    15
1    15
1    15
2    20
dtype: int64

限制

如果你的索引没有匹配，factorize将返回-1，这将被错误地Map，你应该用途：

idx, cols = pd.factorize(df.index.map(mapper))

df['column'] = np.where(idx>=0,
                        df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx],
                        np.nan)

如果使用另一种解决方案，您将无法使用reindex（s[m].droplevel(1).reindex(df.index)），因为您有重复的索引，这将引发错误。
示例：

col_a  col_b  col_c  column
0     10     15     20    10.0
0     10     15     20    10.0
1     10     15     20    15.0
1     10     15     20    15.0
1     10     15     20    15.0
1     10     15     20    15.0
2     10     15     20    20.0
3      6      7      8     NaN

赞(0）回复(0）举报 2023-04-19

7vux5j2d2#

使用Index.map通过索引/列标签查找值：

d = {
  0: 'col_a',
  1: 'col_b',
  2: 'col_c'
}

idx, cols = pd.factorize(df.index.map(d))
df['column'] = df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx]

或者使用rename：

idx, cols = pd.factorize(df.rename(d).index)
df['column'] = df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx]

print (df)
   col_a  col_b  col_c  column
0     10     15     20      10
0     10     15     20      10
1     10     15     20      15
1     10     15     20      15
1     10     15     20      15
1     10     15     20      15
2     10     15     20      20

对于传递给DataFrame构造函数的一列DataFrame：

d = {
  0: 'col_a',
  1: 'col_b',
  2: 'col_c'
}

idx, cols = pd.factorize(df.rename(d).index)
arr = df.reindex(cols, axis=1).to_numpy()[np.arange(len(df)), idx]

df = pd.DataFrame({'column':arr}, index=df.index)
print (df)
   column
0      10
0      10
1      15
1      15
1      15
1      15
2      20

赞(0）回复(0）举报 2023-04-19

kse8i1jr3#

另一种可能的解决方案：

pd.DataFrame(np.hstack([np.array(df.loc[y]) for y in zip(d.keys(), d.values())]),
             index=df.index, columns=['col'])

输出：

赞(0）回复(0）举报 2023-04-19

我来回答

pandas 如何保持每个索引一列的值？

3条答案

替代

限制

相关问题

热门标签

最新问答