查找列中缺少的数字dataframePandas

rn0zuynd 于 2022-12-02 发布在其他

关注(0)|答案(2)|浏览(134)

我有一个包含商店及其发票编号的 Dataframe ，我需要查找每个商店缺失的连续发票编号，例如：
第一个
我需要一个这样的 Dataframe ：

Store   MissInvoice
0   A   3
1   A   4
2   A   7
3   B   21
4   B   22
5   B   25
6   B   26
7   B   27
8   B   28
9   B   29
10  C   201
11  D   205

提前感谢!

pandas

来源：https://stackoverflow.com/questions/74618512/find-missing-numbers-in-a-column-dataframe-pandas

2条答案

按热度按时间

wlsrxk511#

您可以使用groupby.apply来计算set与range的差值，从min到max的值。然后explode：

(df1.astype({'Invoice': int})
    .groupby('Store')['Invoice']
    .apply(lambda s: set(range(s.min(), s.max())).difference(s))
    .explode().reset_index()
)

注意：如果要确保值经过排序，请使用lambda s: sorted(set(range(s.min(), s.max())).difference(s))。*

输出量：

Store Invoice
0      A       3
1      A       4
2      A       7
3      B      21
4      B      22
5      B      25
6      B      26
7      B      27
8      B      28
9      B      29
10     C     201
11     D     205

赞(0）回复(0）举报 2022-12-02

z9smfwbn2#

这里有一个方法：

import pandas as pd
import numpy as np

df1 = pd.DataFrame()
df1['Store'] = ['A','A','A','A','A','B','B','B','B','C','C','C']
df1['Invoice'] = ['1','2','5','6','8','20','23','24','30','200','202','203']
df1['Invoice'] = df1['Invoice'].astype(int)

df2 = df1.groupby('Store')['Invoice'].agg(['min','max'])
df2['MissInvoice'] = [[]]*len(df2)
for store,row in df2.iterrows():
    df2.at[store,'MissInvoice'] = np.setdiff1d(np.arange(row['min'],row['max']+1), 
                                  df1.loc[df1['Store'] == store, 'Invoice'])
df2 = df2.explode('MissInvoice').drop(columns = ['min','max']).reset_index()

生成的 Dataframe df2：

Store MissInvoice
0      A           3
1      A           4
2      A           7
3      B          21
4      B          22
5      B          25
6      B          26
7      B          27
8      B          28
9      B          29
10     C         201

注意：在我的代码中， Dataframe 中没有存储D，因为它在定义df1的问题中被省略了 *。

赞(0）回复(0）举报 2022-12-02

我来回答

查找列中缺少的数字dataframePandas

2条答案

相关问题

热门标签

最新问答