pandas 根据另一个数据框计算总和

llew8vvj 于 2023-10-14 发布在其他

关注(0)|答案(2)|浏览(78)

from datetime import datetime, timedelta

x = datetime(year=2023,month=10, day=6, hour=6, minute=15, second=2).time()

df = pd.DataFrame({'start': ['6:15:00', '6:15:00', '6:15:00', '6:15:01', '6:15:01', '6:15:01', '6:15:01', '6:15:02', '6:15:02', '6:15:02'],
              'end': ['6:15:06', '6:15:00', '6:15:01', '6:15:06', '6:15:15', '6:15:09', '6:15:09', '6:15:06', '6:15:08', '6:15:09']})

df['start'] = pd.to_datetime(df['start'], yearfirst=True).dt.time
df['end'] = pd.to_datetime(df['end'], yearfirst=True).dt.time

start = datetime(year=2023,month=10, day=6, hour=6, minute=15, second=0)
end = datetime(year=2023,month=10, day=6, hour=6, minute=15, second=2)
df2 = pd.DataFrame({"periods (1 sec timedelta)": pd.date_range(start=start, end=end, freq=timedelta(seconds=1)), "total": None})
df2["periods (1 sec timedelta)"] = pd.to_datetime(df2["periods (1 sec timedelta)"], yearfirst=True).dt.time

total = len(df[(df['start'] <= x) & (df['end'] >= x)])

total = 8。如果计算df2中的每一行，则需要花费大量时间。有没有更有效的方法？

pandas

来源：https://stackoverflow.com/questions/77244627/calculate-sum-based-on-another-data-frame

2条答案

按热度按时间

k97glaaz1#

将时间类列解析为timedelta数组，然后调用一个函数，该函数将返回满足给定条件的行数。这里的技巧是用numba编译函数，以达到C语言的速度，因为你的数组是大numba，这将是提高效率和内存管理的理想方法

from numba import njit

@njit
def func(period, start, end):
    for p in period:
        mask = (start <= p) & (end >= p)
        yield sum(mask)

def to_timedelta_arr(col):
    return pd.to_timedelta(col.astype(str)).to_numpy()

df2['total'] = list(func(to_timedelta_arr(df2['periods (1 sec timedelta)']),
                         to_timedelta_arr(df['start']), to_timedelta_arr(df['end'])))

periods (1 sec timedelta)  total
0                  06:15:00      3
1                  06:15:01      6
2                  06:15:02      8

赞(0）回复(0）举报 2023-10-14

vcudknz32#

可能是这样的东西应该做的工作：

def calculate_total(period):
    return len(df1[(df1['start'] <= period) & (df1['end'] >= period)])

df2['total'] = df2['periods (1 sec timedelta)'].apply(calculate_total)

calculate_total函数将计算df1中的行

其中start time小于或等于input period，end time大于或等于输入周期。

然后，将此函数应用于df2['periods (1 sec timedelta)']的每一行，以计算并分配df2中的'total' column。

赞(0）回复(0）举报 2023-10-14

我来回答

pandas 根据另一个数据框计算总和

2条答案

相关问题

热门标签

最新问答