使用pandas计算每日总和

xe55xuns 于 12个月前发布在其他

关注(0)|答案(2)|浏览(116)

我正在尝试使用pandas计算每日值的总和。下面是测试文件-http://pastebin.com/uSDfVkTS
这是我到目前为止得到的代码：

import numpy as np
import datetime as dt
import pandas as pd

f = np.genfromtxt('test', dtype=[('datetime', '|S16'), ('data', '<i4')], delimiter=',')
dates = [dt.datetime.strptime(i, '%Y-%m-%d %H:%M') for i in f['datetime']]
s = pd.Series(f['data'], index = dates)
d = s.resample('D', how='sum')

使用给定的测试文件，这将产生：

2012-01-02    1128
Freq: D

第一个问题是计算的总和对应于第二天。我已经能够通过使用参数loffset ='-1d'来解决这个问题。
现在的实际问题是，数据可能不是从一天的00：30开始，而是在一天的任何时间开始。此外，数据中还存在用“nan”值填充的空白。
也就是说，有没有可能设置一个较低的阈值，计算每日总和所需的值的数量？（例如，如果一天中的值少于40个，则输入NaN而不是总和）
我相信可以定义一个自定义函数来实现这一点，并在“how”参数中引用它，但我不知道如何编写函数本身。

pandas

来源：https://stackoverflow.com/questions/13475812/calculate-daily-sums-using-pandas

2条答案

按热度按时间

vsdwdz231#

你可以直接在Pandas中完成：

s = pd.read_csv('test', header=None, index_col=0, parse_dates=True)
d = s.groupby(lambda x: x.date()).aggregate(lambda x: sum(x) if len(x) >= 40 else np.nan)

             X.2
2012-01-01  1128

赞(0）回复(0）举报 12个月前

pdtvr36n2#

更简单的方法是使用pd.Grouper：

d = s.groupby(pd.Grouper(freq='1D')).sum()

赞(0）回复(0）举报 12个月前

我来回答

使用pandas计算每日总和

2条答案

相关问题

热门标签

最新问答