复杂的组由几个具有相似前缀的列，同时根据列中的分类值取和(Pandas)

ymdaylpp 于 2023-06-20 发布在其他

关注(0)|答案(2)|浏览(76)

如果前缀相似，我会查看groupby几列，并根据一列内的分类值计算总和。

数据

name      type    size
AA:3400            5
AA:3401   FALSE    1
AA:3402   FALSE    2
AA:3404   FALSE    0
AA:3409   FALSE    1
AA:3410   FALSE    8
AA:3412   FALSE    9
BB:3400   TRUE     4
BB:3401   FALSE    7

期望

name    type    size
AA      TRUE    0
AA      FALSE   21
AA              5
BB      TRUE    4
BB      FALSE   7
BB

做

df.groupby(['name', 'type'], dropna=False, as_index=False)['size'].sum()

但是，如果值具有相同的前缀，我该如何分组？任何建议都很感激。

pandas

来源：https://stackoverflow.com/questions/76410606/tricky-groupby-several-columns-of-a-similar-prefix-while-taking-the-sum-based-of

2条答案

按热度按时间

nimxete21#

您可以尝试：

out = (
    df.assign(type= df["type"].astype(
        pd.CategoricalDtype(["TRUE", "FALSE"], ordered=True)))
      .groupby([df["name"].str.split(":").str[0], "type"],
               dropna=False, group_keys=False)["size"].sum().reset_index()
)

输出：

print(out)

  name   type  size
0   AA   TRUE     0
1   AA  FALSE    21
2   AA    NaN     5
3   BB   TRUE     4
4   BB  FALSE     7
5   BB    NaN     0

赞(0）回复(0）举报 2023-06-20

gywdnpxw2#

就像@Timeless解决方案一样，我会这样做：

df['type'] = df['type'].astype('category')
df_out = df.groupby([df['name'].str[:2], 'type'], 
                    dropna=False, 
                    observed=False)['size'].sum().reset_index()
print(df_out)

输出：

name   type  size
0   AA  False    21
1   AA   True     0
2   AA    NaN     5
3   BB  False     7
4   BB   True     4
5   BB    NaN     0

赞(0）回复(0）举报 2023-06-20

我来回答

复杂的组由几个具有相似前缀的列，同时根据列中的分类值取和(Pandas)

2条答案

相关问题

热门标签

最新问答