Pandas MultiIndex DataFrame,滚动偏移

fwzugrvs  于 2023-04-28  发布在  其他
关注(0)|答案(2)|浏览(114)

**rolling多索引DataFrame时为什么不能使用偏移量?**例如:

rng = pd.date_range('2017-01-03', periods=20, freq='8D')
i = pd.MultiIndex.from_product([['A','B','C'], rng], names=['Name','Date'])
df = pd.DataFrame(np.random.randn(60), i, columns=['Vals'])

如果我尝试分组并滚动偏移量,我会得到“ValueError:窗口必须是一个整数":

df['Avg'] = df.groupby(['Name'])['Vals'].rolling('30D').mean() # << Why doesn't this work?

并不是说下面的这些变体满足了我的需求,但是请注意,使用int进行分组和滚动是可行的:

df['Avg'] = df.groupby(['Name'])['Vals'].rolling(4).mean()

我可以在DataFrame的单索引子集上滚动偏移量:

d = df.loc['A']
d['Avg'] = d['Vals'].rolling('30D').mean()

如果确实不可能在多索引 Dataframe 上使用偏移量进行滚动,那么将偏移量应用于每个0级索引项的最有效的解决方法是什么?

2ledvvac

2ledvvac1#

为了使用像'30D'这样的偏移量,您需要一个简单的日期索引。在这种情况下,最简单的方法是使用reset_index(level='Name')将'Name'移出索引,只留下'Date'作为索引:

df['Avg'] = df.reset_index(level='Name').groupby(['Name'])['Vals'].rolling('30D').mean()
zujrkrfu

zujrkrfu2#

在MultiIndex的一个级别上滚动支持仍然是不完善的,请参阅:https://github.com/pandas-dev/pandas/issues/34642
除了@JohnE的解决方案之外,还可以使用transform方法:

df.groupby(level='Name')\
  .Vals\
  .transform(lambda d: d.rolling('30D', on=d.index.levels[1])\
                        .mean()
            )

请注意,没有transform的代码:

df.groupby(level='Name')\
  .Vals\
  .rolling('30D', on=df.index.levels[1])\
  .mean()

抛出IndexError(至少在Pandas 1上。5)。

相关问题