我有一个如下的数据集
df = pd.DataFrame([[2020, 'Jan', 1],
[2020, 'Jan', 2],
[2020, 'Jan', 3],
[2020, 'Feb', 4],
[2020, 'Feb', 5],
[2020, 'Feb', 6],
[2021, 'Jan', 7],
[2021, 'Jan', 8],
[2021, 'Jan', 9],
[2021, 'Feb', 10],
[2021, 'Feb', 11],
[2021, 'Feb', 12],
[2022, 'Jan', 13],
[2022, 'Jan', 14],
[2022, 'Jan', 15],
[2022, 'Feb', 16],
[2022, 'Feb', 17],
[2022, 'Feb', 18]],
columns=['Year', 'Month', 'Sale ($)'])
显示不同月份和年份的销售额。
使用pandas.pivot_table函数,我可以创建一个pivot表来计算不同月份和年份的销售额总和。
df.pivot_table(index='Month', columns='Year', aggfunc='sum')
这将生成一个汇总统计表,如下所示:
2020202022JAN62442FEB153351
我的问题是:我如何确定每年我的销售额最高的月份?
我知道,在2020年、2021年和2022年,我的最高销售额分别为15美元、33美元和51美元。
我可以通过在代码末尾添加.max()来实现这一点
df.pivot_table(index='Month', columns='Year',aggfunc='sum').max()
这正好返回:
年销售额20201523123202251
在这个例子中,最大销售额都在2月份,那么我如何编写一个函数,返回的不是最大值,而是最大销售额的月份?
暂无答案!
目前还没有任何答案,快来回答吧!