我如何总结一个只有特定值计数的 Dataframe ，以生成一个带有pandas的分组表？

nnvyjq4y 于 2023-04-18 发布在其他

关注(0)|答案(1)|浏览(108)

请考虑以下玩具数据：

dat = pd.DataFrame({'Year': [1,1,1,1,1,2,2,2,2,2],
                'Type': ['a','a','b','b','b','a','a','a','b','b'],
                'Status': ['ft','ft','ft','pt','pt','ft','ft','ft','ft','pt']})

我有兴趣创建一个汇总表，按年份分组，其中列根据我选择的字符串指定持有计数。例如，我想要一个如下所示的表：

result = pd.DataFrame({'Year': [1,2],
                   'Type_B_Count': [3,2],
                   'Status_FT_Count': [3,4]})

在R世界中，我会使用dplyr并得到我想要的结果：

result<-dat%>%
  group_by(Year)%>%
  summarise(Type_B_Count=sum(Type %in% c("b")),
            Status_FT_Count=sum(Status %in% c("ft")))

理想情况下，我希望得到一个通用的答案，这样我就可以将代码转换为字符串搜索，而不会有太多的变化。

result<-dat%>%
      group_by(Year)%>%
      summarise(Type_B_Count=sum(grepl("b",Type)),
                Status_FT_Count=sum(Status %in% c("ft")))

）
我已经看到了几个答案，似乎提供了感兴趣的变量的所有水平/组合的计数，但还没有找到这个特定问题的解决方案。
我可以想象类似的问题会经常被问到，但到目前为止还没有找到任何产生这种输出的结果，我在这里。任何关于这个问题的帮助/指导我正在寻找的信息将不胜感激。

pandas

来源：https://stackoverflow.com/questions/76039218/how-can-i-summarize-a-dataframe-with-counts-of-only-specific-values-to-produce-a

1条答案

按热度按时间

2w2cym1i1#

一个自定义聚合选项（groupby.agg）：

out = (
 dat.groupby('Year', as_index=False)
    .agg(**{'Type_B_Count': ('Type', lambda g: g.eq('b').sum()),
            'Status_FT_Count': ('Status', lambda g: g.eq('ft').sum())
         })
)

或者：

from functools import partial

def count(g, item=None):
    return g.eq(item).sum()

out = (
 dat.groupby('Year', as_index=False)
    .agg(**{'Type_B_Count': ('Type', partial(count, item='b')),
            'Status_FT_Count': ('Status', partial(count, item='ft'))
         })
)

输出：

Year  Type_B_Count  Status_FT_Count
0     1             3                3
1     2             2                4

另一个使用字典的选项：

d = {'Type': 'b', 'Status': 'ft'}

out = (
 dat.set_index('Year')
    .eq(d)
    .groupby(level=0).sum()
    .rename(columns=lambda col: f'{col}_{d[col]}_Count')
    .reset_index()
)

输出：

Year  Type_b_Count  Status_ft_Count
0     1             3                3
1     2             2                4

赞(0）回复(0）举报 2023-04-18

我来回答

我如何总结一个只有特定值计数的 Dataframe ，以生成一个带有pandas的分组表？

1条答案

相关问题

热门标签

最新问答