Pandas按数字分组并查找低于当前日期的日期

k4ymrczo 于 2023-06-28 发布在其他

关注(0)|答案(4)|浏览(171)

我有一个pandas数据框，里面有id，number和date。我想创建一个新的列，显示有多少日期低于当前ID的日期相同的数字（按数字分组）。

import pandas as pd
df = pd.DataFrame({'id': [1,2,3,4,5,6],'number':['a', 'a', 'a', 'a', 'b', 'c'], 'date' : ['2023-06-20', '2022-06-20', '2021-06-20', '2021-07-20', '2022-06-20', '2023-06-20']})
print(df)

  id number        date
0   1      a  2023-06-20
1   2      a  2022-06-20
2   3      a  2021-06-20
3   4      a  2021-07-20
4   5      b  2022-06-20
5   6      c  2023-06-20

我使用了pandas apply函数进行过滤。问题是我有300k+行，在代码下面运行大约需要2个小时。如何优化它？

df['result'] = df.apply(lambda x:len(df[(df['number'] == x['number']) & (df['date'] < x['date'])]), axis = 1)
print(df)
 id number        date    result
0   1      a  2023-06-20     3
1   2      a  2022-06-20     2
2   3      a  2021-06-20     0
3   4      a  2021-07-20     1
4   5      b  2022-06-20     0
5   6      c  2023-06-20     0

pandas

来源：https://stackoverflow.com/questions/76517953/pandas-group-by-number-and-find-dates-lowers-than-current-date

4条答案

按热度按时间

tyg4sfes1#

您可以按date对 Dataframe 进行排序，然后计算每个组的累积计数：

df['result'] = df.sort_values('date').groupby('number').cumcount()
print(df)

# Output
   id number        date  result
0   1      a  2023-06-20       3
1   2      a  2022-06-20       2
2   3      a  2021-06-20       0
3   4      a  2021-07-20       1
4   5      b  2022-06-20       0
5   6      c  2023-06-20       0

注意：它之所以有效，是因为date在你的 Dataframe 中是唯一的。

赞(0）回复(0）举报 2023-06-28

2izufjch2#

您可以优化代码以更有效地计算所需的结果。您可以利用pandas groupby和cumcount函数的强大功能，而不是使用apply函数。这些函数允许您执行所需的计算，而无需嵌套循环。
下面是更新的代码：

import pandas as pd

# Create the DataFrame
df = pd.DataFrame({'id': [1, 2, 3, 4, 5, 6],
                   'number': ['a', 'a', 'a', 'a', 'b', 'c'],
                   'date': ['2023-06-20', '2022-06-20', '2021-06-20', '2021-07-20', '2022-06-20', '2023-06-20']})

# Calculate the result using groupby and cumcount
df['result'] = df.groupby('number')['date'].cumcount()

# Print the resulting DataFrame
print(df)

参考文献：
grouby上的Pandas文档cumcount上的Pandas文档

赞(0）回复(0）举报 2023-06-28

vawmfj5a3#

正如其他答案中所指出的，如果你的日期是唯一的，那么在排序值上使用简单的groupby.cumcount就可以了。
如果你可以有重复的结果将是不正确的，计算变得更加复杂。
然后，您需要计算每个日期/id的出现次数，然后计算这些值的cumsum：

tmp = (df.sort_values(by=['number', 'date'], ascending=[True, False])
   .groupby(['date', 'number'], as_index=False).size()
   .assign(n=lambda d: d.groupby('number')['size'].transform(lambda x: x.cumsum().shift(fill_value=0)))
 )

df['result'] = df.merge(tmp, on=['date', 'number'], how='left')['n']
                   
 
   id number        date  result
0   1      a  2023-06-20       3
1   2      a  2022-06-20       2
2   3      a  2021-06-20       0
3   4      a  2021-07-20       1
4   5      b  2022-06-20       0
5   6      c  2023-06-20       0

日期重复时的差异示例：

id number        date  result  cumcount
0   0      a  2022-06-20       2         2
1   1      a  2023-06-20       4         4
2   2      a  2022-06-20       2         3
3   3      a  2021-06-20       0         0
4   4      a  2021-07-20       1         1
5   5      b  2022-06-20       0         0
6   6      c  2023-06-20       0         0

赞(0）回复(0）举报 2023-06-28

gajydyqb4#

下面是使用rank()的选项

df['result'] = df.groupby('number')['date'].rank(method = 'min').sub(1).astype(int)

输出：

id number       date  result
0   1      a 2023-06-20       3
1   2      a 2022-06-20       2
2   3      a 2021-06-20       0
3   4      a 2021-07-20       1
4   5      b 2022-06-20       0
5   6      c 2023-06-20       0

赞(0）回复(0）举报 2023-06-28

我来回答

Pandas按数字分组并查找低于当前日期的日期

4条答案

相关问题

热门标签

最新问答