python 如何筛选出每个item_id的最新和最早日期的行？

ao218c7q 于 2023-06-28 发布在 Python

关注(0)|答案(5)|浏览(89)

我想使用pandas过滤出每个item_id的最新和最早日期的行。提前感谢您的帮助：）
| 最喜欢的|日期| date |
| - -----|- -----| ------------ |
| 八|2022-06-09 2022-06-09| 2022-06-09 |
| 八|2022-06- 10 2022-06-10 2022-06-10| 2022-06-10 |
| 八|2022-06-11 2022-06-11 2022-06-11| 2022-06-11 |
| 八|2022-06- 12 2022-06-12 2022-06-12| 2022-06-12 |
| 一百六十八|2022-06-09 2022-06-09| 2022-06-09 |
| 一百六十八|2022-06- 10 2022-06-10 2022-06-10| 2022-06-10 |
| 一百六十八|2022-06-11 2022-06-11 2022-06-11| 2022-06-11 |
| 一百六十八|2022-06- 12 2022-06-12 2022-06-12| 2022-06-12 |
| 一百六十八|2022-06-13 2022-06-13 2022-06-13| 2022-06-13 |
理想输出为：
| 最喜欢的|日期| date |
| - -----|- -----| ------------ |
| 八|2022-06-09 2022-06-09| 2022-06-09 |
| 八|2022-06- 12 2022-06-12 2022-06-12| 2022-06-12 |
| 一百六十八|2022-06-09 2022-06-09| 2022-06-09 |
| 一百六十八|2022-06-13 2022-06-13 2022-06-13| 2022-06-13 |
原始数据在这里：

item_id,favorite,date
1049977,8,2022-06-09
1049977,8,2022-06-10
1049977,8,2022-06-11
1049977,8,2022-06-12
1611924,168,2022-06-09
1611924,168,2022-06-10
1611924,168,2022-06-11
1611924,168,2022-06-12
1611924,168,2022-06-13

python

来源：https://stackoverflow.com/questions/72674812/how-to-filter-out-the-rows-with-the-latest-and-earliest-dates-for-each-item-id

5条答案

按热度按时间

1l5u6lss1#

df[df.groupby('item_id')['date'].transform(lambda x: x.eq(x.max()) | x.eq(x.min()))]

输出：

item_id  favorite       date
0  1049977         8 2022-06-09
3  1049977         8 2022-06-12
4  1611924       168 2022-06-09
8  1611924       168 2022-06-13

赞(0）回复(0）举报 2023-06-28

unhi4e5o2#

这最好使用groupby操作来完成。在开始时，使用循环执行此操作可能很有吸引力，但随着行数的增加，这将严重影响性能。
使用groupby方法.first（）和.last（）给出了第一个和最后一个条目。请注意，您需要确保您的dataframe按指定日期的任何列进行排序。
.concat只是一种将结果放在一个df中的简单方法。也许还有更好的选择。
这个片段：

pd.concat([
    df.groupby('item_id').first(),
    df.groupby('item_id').last()
    ]).sort_index()

给我这个输出：

favorite        date
item_id                      
1049977         8  2022-06-09
1049977         8  2022-06-12
1611924       168  2022-06-09
1611924       168  2022-06-13

赞(0）回复(0）举报 2023-06-28

4c8rllxm3#

您可以在groupby.apply或transform(min)和transform(max)中使用最大值、最小值date过滤组

out = (df.groupby('item_id')
       .apply(lambda g: g[g['date'].isin([g['date'].min(), g['date'].max()])])
       .reset_index(drop=True))

# or

groups = df.groupby(['item_id'])['date']
out = df[(df['date']==groups.transform(min)) | (df['date']==groups.transform(max))]

print(out)

   item_id  favorite        date
0  1049977         8  2022-06-09
3  1049977         8  2022-06-12
4  1611924       168  2022-06-09
8  1611924       168  2022-06-13

赞(0）回复(0）举报 2023-06-28

x6yk4ghg4#

这里有一个不需要对输入 Dataframe 进行排序的解决方案。对于每个item_id，它获取日期最早（最小）或最晚（最大）的行的索引值，然后使用这些索引值过滤原始 Dataframe 。

df.iloc[df.groupby('item_id').date.agg(['idxmin','idxmax']).values.ravel()]

    item_id favorite          date
0   1049977        8    2022-06-09
3   1049977        8    2022-06-12
4   1611924      168    2022-06-09
8   1611924      168    2022-06-13

赞(0）回复(0）举报 2023-06-28

vhipe2zx5#

替代方法：

df=pd.DataFrame({'item_id': [1049977, 1049977, 1049977, 1049977,1611924,1611924,1611924,1611924,1611924],
                 'favorite': [8,8,8,8,168,168,168,168,168],
                 'date': ['2022-06-09', '2022-06-10', '2022-06-11', '2022-06-12',
                          '2022-06-09', '2022-06-10', '2022-06-11', '2022-06-12', '2022-06-13']})

df['date'] = pd.to_datetime(df['date'])

df['nrows'] = df.groupby(['item_id', 'favorite']).cumcount()+1

df['max_row'] = df.groupby(['item_id', 'favorite'])['nrows'].transform('max')
df['min_row'] = df.groupby(['item_id', 'favorite'])['nrows'].transform('min')

df['flag_min'] = df.apply(lambda x: 1 if (x['nrows']==x['min_row']) else 0, axis = 1)
df['flag_max'] = df.apply(lambda x: 1 if (x['nrows']==x['max_row']) else 0, axis = 1)

df1 = df[(df['flag_min']== 0) & (df['flag_max']== 0)].drop(['nrows','max_row', 'min_row', 'flag_min', 'flag_max'], axis = 1)

print(df1)

赞(0）回复(0）举报 2023-06-28

我来回答

python 如何筛选出每个item_id的最新和最早日期的行？

5条答案

相关问题

热门标签

最新问答