我有一个很大的 Dataframe ,我按1到n列分组,并希望在这些组上跨两列应用一个函数(例如foo和bar)。
下面是一个 Dataframe 示例:
foo_function = lambda x: np.sum(x.a+x.b)
df = pd.DataFrame({'a':[1,2,3,4,5,6],
'b':[1,2,3,4,5,6],
'c':['q', 'q', 'q', 'q', 'w', 'w'],
'd':['z','z','z','o','o','o']})
# works with apply, but I want transform:
df.groupby(['c', 'd'])[['a','b']].apply(foo_function)
# transform doesn't work!
df.groupby(['c', 'd'])[['a','b']].transform(foo_function)
TypeError: cannot concatenate a non-NDFrame object
但是transform
显然不能将多个列组合在一起,因为它分别查看每个列(与apply不同)。就速度/优雅性而言,下一个最佳选择是什么?例如,我可以使用apply
,然后使用pd.match
创建df['new_col']
,但这有时需要在多个groupby列(col 1和col 2)上进行匹配,这看起来确实很麻烦/需要相当多的代码。
--〉是否有类似groupby().transform的函数可以使用多列函数?如果不存在,最好的办法是什么?
3条答案
按热度按时间mnemlml81#
Circa Pandas 0.18版,看来原来的答案(下图)不再起作用。
相反,如果需要跨多列执行groupby计算,请 * 首先 * 执行多列计算,然后执行groupby:
收益率
原文回答:
错误消息:
建议
foo_function
应返回NDFrame(如Series或DataFrame)以便进行连接。如果返回Series,则:aamkag612#
我对这个问题的理解是,您希望能够对两个列中的单个值执行任意操作。您只需要确保返回的 Dataframe 与传入的 Dataframe 大小相同。我认为最好的方法是创建一个新列,如下所示:
:
如果您有一个非常复杂的 Dataframe ,您可以选择您的列(例如
df.groupby(['c'])['a','b','e'].transform(f)
)在我看来,这确实很不优雅,但在大型数据集上,它仍然比
apply
快得多。另一种方法是使用
set_index
捕获所需的所有列,然后只将一列传递给transform
。uqcuzwp83#
以下解决方法允许您使用类似的
transform
语法进行转换,但改用.groupby
和.apply
。因此,您不必将多列计算分开,从而使处理步骤变得支离破碎。
第一个