我正在尝试使用pandas计算每日值的总和。下面是测试文件-http://pastebin.com/uSDfVkTS
这是我到目前为止得到的代码:
import numpy as np
import datetime as dt
import pandas as pd
f = np.genfromtxt('test', dtype=[('datetime', '|S16'), ('data', '<i4')], delimiter=',')
dates = [dt.datetime.strptime(i, '%Y-%m-%d %H:%M') for i in f['datetime']]
s = pd.Series(f['data'], index = dates)
d = s.resample('D', how='sum')
使用给定的测试文件,这将产生:
2012-01-02 1128
Freq: D
第一个问题是计算的总和对应于第二天。我已经能够通过使用参数loffset ='-1d'来解决这个问题。
现在的实际问题是,数据可能不是从一天的00:30开始,而是在一天的任何时间开始。此外,数据中还存在用“nan”值填充的空白。
也就是说,有没有可能设置一个较低的阈值,计算每日总和所需的值的数量?(例如,如果一天中的值少于40个,则输入NaN而不是总和)
我相信可以定义一个自定义函数来实现这一点,并在“how”参数中引用它,但我不知道如何编写函数本身。
2条答案
按热度按时间vsdwdz231#
你可以直接在Pandas中完成:
pdtvr36n2#
更简单的方法是使用
pd.Grouper
: