Pandas Dataframe -将两列的值与前一行进行比较以创建新列

nwnhqdif 于 2023-06-20 发布在其他

关注(0)|答案(2)|浏览(197)

我正在检查一个事件是否发生在同一天的多个日期和地点。在简化表中有一个日期列、一个位置列和一个事件列。我需要创建一个名为“事件检查”的新专栏。EVENTCHECK应该将当前行中的DATE与上面的所有行进行比较，如果匹配，则检查该日期行上的事件列是否为1，并返回1。
下面是虚拟数据表：

import pandas as pd

df = pd.DataFrame()
df['DATE'] = ['2022-01-01','2022-01-02','2022-01-03','2022-01-04','2022-01-05','2022-01-01','2022-01-02','2022-01-03','2022-01-04','2022-01-05']
df['LOCATION'] = ['A','A','A','A','A','B','B','B','B','B']
df['EVENT'] = [1,1,1,1,1,0,0,0,0,0]

EVENTCHECK列中的正确结果应为True。我试过下面的方法，也试过使用掩码，但不知道如何将当前行与日期列中的前一行进行比较。任何帮助都是真诚的感谢。

import pandas as pd

df = pd.DataFrame()
df['DATE'] = ['2022-01-01','2022-01-02','2022-01-03','2022-01-04','2022-01-05','2022-01-01','2022-01-02','2022-01-03','2022-01-04','2022-01-05']
df['LOCATION'] = ['A','A','A','A','A','B','B','B','B','B']
df['EVENT'] = [1,1,1,1,1,0,0,0,0,0]

df['EVENT_CHECK'] = (df['DATE'].isin(df['DATE'])) & (df['EVENT'] == 1)
print(df)

pandas

来源：https://stackoverflow.com/questions/76471532/pandas-dataframe-comparing-values-of-two-columns-with-previous-rows-to-create

2条答案

按热度按时间

polhcujo1#

如果这些值等于所有先前值，则当前值等于第一个值，并且没有先前值不不同。
然后，您可以使用groupby.transform('first')进行比较，然后使用groupby.cummin：

df['EVENT_CHECK'] = (df['EVENT'].eq(df.groupby('LOCATION')['EVENT']
                                      .transform('first'))
                     .groupby(df['LOCATION']).cummin()
                    )

与groupby.apply相同的逻辑：

df['EVENT_CHECK'] = (df.groupby('LOCATION', group_keys=False)
                       .apply(lambda g: g['EVENT'].eq(g['EVENT'].iloc[0])
                                         .cummin())
                     )

注：这假设日期最初是排序的。如果没有，首先添加.sort_values(by=['LOCATION', 'DATE'])作为预备步骤。

只有1个重要

如果你只对1感兴趣，那么你可以简化为：

df['EVENT_CHECK'] = df['EVENT'].eq(1).groupby(df['LOCATION']).cummin()

输出：

DATE LOCATION  EVENT  EVENT_CHECK
0  2022-01-01        A      1         True
1  2022-01-02        A      1         True
2  2022-01-03        A      1         True
3  2022-01-04        A      1         True
4  2022-01-05        A      1         True
5  2022-01-01        B      0         True
6  2022-01-02        B      0         True
7  2022-01-03        B      0         True
8  2022-01-04        B      0         True
9  2022-01-05        B      0         True

更有意义的示例：

DATE LOCATION  EVENT  EVENT_CHECK
0  2022-01-01        A      1         True
1  2022-01-02        A      1         True
2  2022-01-03        A      2        False  # 2 ≠ 1
3  2022-01-04        A      1        False  # 1 not equal to all previous
4  2022-01-05        A      1        False
5  2022-01-01        B      0         True
6  2022-01-02        B      0         True
7  2022-01-03        B      0         True
8  2022-01-04        B      0         True
9  2022-01-05        B      0         True

替代

为了好玩，如果日期对所有地点都是通用的，这里有一个重塑和merge的替代方案：

out = df.merge(
 df.pivot(index='DATE', columns='LOCATION', values='EVENT')
   .pipe(lambda d: d.eq(d.iloc[0]).cummin())
   .stack().rename('EVENT_CHECK'),
 left_on=['DATE', 'LOCATION'], right_index=True
)

赞(0）回复(0）举报 2023-06-20

k5ifujac2#

如果你想以最有效的方式（矢量化）来实现，你可以这样做：

df['EVENT_CHECK'] = df.groupby('DATE')['EVENT'].transform('sum').ge(1)

输出（我添加了额外的非事件日期）：

DATE    LOCATION    EVENT   EVENT_CHECK
0   2022-01-01  A         1     True
1   2022-01-02  A         1     True
2   2022-01-03  A         1     True
3   2022-01-04  A         1     True
4   2022-01-05  A         1     True
5   2022-01-01  B         0     True
6   2022-01-02  B         0     True
7   2022-01-03  B         0     True
8   2022-01-04  B         0     True
9   2022-01-05  B         0     True
10  2025-01-06  B         0     False

赞(0）回复(0）举报 2023-06-20

我来回答

Pandas Dataframe -将两列的值与前一行进行比较以创建新列

2条答案

只有1个重要

更有意义的示例：

替代

相关问题

热门标签

最新问答