使用pandasGroupBy.agg()对同一列进行多个聚合

lx0bsm1f 于 2023-04-19 发布在其他

关注(0)|答案(4)|浏览(176)

有没有一种内置的pandas方法可以将两个不同的聚合函数f1, f2应用到同一列df["returns"]，而不必多次调用agg()？
示例 Dataframe ：

import pandas as pd
import datetime as dt
import numpy as np

pd.np.random.seed(0)
df = pd.DataFrame({
         "date"    :  [dt.date(2012, x, 1) for x in range(1, 11)], 
         "returns" :  0.05 * np.random.randn(10), 
         "dummy"   :  np.repeat(1, 10)
})

语法上错误但直觉上正确的方法是：

# Assume `f1` and `f2` are defined for aggregating.
df.groupby("dummy").agg({"returns": f1, "returns": f2})

显然，Python不允许重复的键。有没有其他方式来表达agg()的输入？也许元组列表[(column, function)]会更好，允许多个函数应用于同一列？但是agg()似乎只接受字典。
除了定义一个辅助函数来应用其中的两个函数之外，有没有其他解决方法？（这将如何与聚合一起工作？）

pandas

来源：https://stackoverflow.com/questions/12589481/multiple-aggregations-of-the-same-column-using-pandas-groupby-agg

4条答案

按热度按时间

gudnpqoy1#

截至2022-06-20，以下是聚合的公认做法：

df.groupby('dummy').agg(
    Mean=('returns', np.mean),
    Sum=('returns', np.sum))

请参阅this answer了解更多信息。
下面是pandas的历史版本。
你可以简单地将函数作为列表传递：

In [20]: df.groupby("dummy").agg({"returns": [np.mean, np.sum]})
Out[20]:         
           mean       sum
dummy                    
1      0.036901  0.369012

或者作为字典：

In [21]: df.groupby('dummy').agg({'returns':
                                  {'Mean': np.mean, 'Sum': np.sum}})
Out[21]: 
        returns          
           Mean       Sum
dummy                    
1      0.036901  0.369012

赞(0）回复(0）举报 2023-04-19

3lxsmp7m2#

TLDR; Pandas groupby.agg有一个新的、更简单的语法来指定（1）多列上的聚合，以及（2）一列上的多个聚合。

df.groupby('dummy').agg(Mean=('returns', 'mean'), Sum=('returns', 'sum'))

           Mean       Sum
dummy                    
1      0.036901  0.369012

或

df.groupby('dummy')['returns'].agg(Mean='mean', Sum='sum')

           Mean       Sum
dummy                    
1      0.036901  0.369012

Pandas〉= 0.25：命名聚合

Pandas改变了GroupBy.agg的行为，支持更直观的语法来指定命名聚合。请参阅0.25文档中关于增强功能以及相关GitHub问题GH18366和GH26512的部分。
从文件来看，
为了支持特定于列的聚合，并控制输出列名，pandas接受GroupBy.agg()中的特殊语法，称为“命名聚合”，其中

关键字是输出列名
值是元组，其第一个元素是要选择的列，第二个元素是要应用于该列的聚合。Pandas提供了pandas.NamedAgg namedtuple，带有字段['column'，'aggfunc']，以使参数更清楚。通常，聚合可以是可调用的或字符串别名。

现在可以通过关键字参数传递元组。元组遵循(<colName>, <aggFunc>)。

import pandas as pd

pd.__version__                                                                                                                            
# '0.25.0.dev0+840.g989f912ee'

# Setup
df = pd.DataFrame({'kind': ['cat', 'dog', 'cat', 'dog'],
                   'height': [9.1, 6.0, 9.5, 34.0],
                   'weight': [7.9, 7.5, 9.9, 198.0]
})

df.groupby('kind').agg(
    max_height=('height', 'max'), min_weight=('weight', 'min'),)

      max_height  min_weight
kind                        
cat          9.5         7.9
dog         34.0         7.5

或者，您可以使用pd.NamedAgg（本质上是一个namedtuple），这使得事情更加明确。

df.groupby('kind').agg(
    max_height=pd.NamedAgg(column='height', aggfunc='max'), 
    min_weight=pd.NamedAgg(column='weight', aggfunc='min')
)

      max_height  min_weight
kind                        
cat          9.5         7.9
dog         34.0         7.5

对于Series来说更简单，只需将aggfunc传递给关键字参数。

df.groupby('kind')['height'].agg(max_height='max', min_height='min')    

      max_height  min_height
kind                        
cat          9.5         9.1
dog         34.0         6.0

最后，如果你的列名不是有效的python标识符，请使用解包的字典：

df.groupby('kind')['height'].agg(**{'max height': 'max', ...})

Pandas〈0.25

在pandas 0.24之前的最新版本中，如果使用字典为聚合输出指定列名，您将得到FutureWarning：

df.groupby('dummy').agg({'returns': {'Mean': 'mean', 'Sum': 'sum'}})
# FutureWarning: using a dict with renaming is deprecated and will be removed 
# in a future version

在v0.20中不建议使用字典来重命名列。在最近的pandas版本中，可以通过传递一个元组列表来更简单地指定这一点。如果以这种方式指定函数，则该列的 * 所有 * 函数需要指定为（name，function）对的元组。

df.groupby("dummy").agg({'returns': [('op1', 'sum'), ('op2', 'mean')]})

        returns          
            op1       op2
dummy                    
1      0.328953  0.032895

或者

df.groupby("dummy")['returns'].agg([('op1', 'sum'), ('op2', 'mean')])

            op1       op2
dummy                    
1      0.328953  0.032895

赞(0）回复(0）举报 2023-04-19

j8yoct9x3#

像这样的工作：

In [7]: df.groupby('dummy').returns.agg({'func1' : lambda x: x.sum(), 'func2' : lambda x: x.prod()})
Out[7]: 
              func2     func1
dummy                        
1     -4.263768e-16 -0.188565

赞(0）回复(0）举报 2023-04-19

kjthegm64#

如果您有多个列需要应用相同的多个聚合函数，最简单的方法（imo）是使用字典解析。

#setup
df = pd.DataFrame({'dummy': [0, 1, 1], 'A': range(3), 'B':range(1, 4), 'C':range(2, 5)})

# aggregation
df.groupby("dummy").agg({k: ['sum', 'mean'] for k in ['A', 'B', 'C']})

上面的结果是一个带有MultiIndex列的 Dataframe 。如果需要一个扁平的自定义列名，命名聚合是一种方法（正如这里的其他答案所建议的那样）。
如文档中所述，对于命名聚合，键应该是输出列名，值应该是元组(column, aggregation function)。由于有多个列和多个函数，这导致了嵌套结构。要将其扁平化为单个字典，可以使用collections.ChainMap()或嵌套循环。
此外，如果您更喜欢将分组器列（dummy）作为列（而不是索引），请在groupby()中指定as_index=False。

from collections import ChainMap
# convert a list of dictionaries into a dictionary
dct = dict(ChainMap(*reversed([{f'{k}_total': (k, 'sum'), f'{k}_mean': (k, 'mean')} for k in ['A','B','C']])))
# {'A_total': ('A', 'sum'), 'A_avg': ('A', 'mean'), 'B_total': ('B', 'sum'), 'B_avg': ('B', 'mean'), 'C_total': ('C', 'sum'), 'C_avg': ('C', 'mean')}

# the same result obtained by a nested loop
# dct = {k:v for k in ['A','B','C'] for k,v in [(f'{k}_total', (k, 'sum')), (f'{k}_avg', (k, 'mean'))]}

# aggregation
df.groupby('dummy', as_index=False).agg(**dct)

赞(0）回复(0）举报 2023-04-19

我来回答

使用pandasGroupBy.agg()对同一列进行多个聚合

4条答案

Pandas〉= 0.25：命名聚合

Pandas〈0.25

相关问题

热门标签

最新问答