pandas drop_duplicates删除空值的问题

apeeds0o  于 2023-06-04  发布在  其他
关注(0)|答案(2)|浏览(176)

我使用drop_duplicates从我的基于列的 Dataframe 中删除重复项,问题是这个列对于一些条目是空的,那些被删除的条目是否有办法使函数忽略空值。下面是一个例子

Title                  summary                  
0   TITLE A                summaryA       
1   TITLE A                summaryB  
2                          summaryC       
3                          summaryD

用这个

data.drop_duplicates(subset ="TITLE", 
                     keep = 'first', inplace = True)

我得到这样的结果:

Title                  summary                  
0   TITLE A                summaryA        
2                          summaryC

但是因为最后两行不是重复的我想保留它们。drop_duplicates是否有办法忽略空值?

ryevplcw

ryevplcw1#

用索引号填充缺失值?也许不是最漂亮的方式,但它的工作

df = pd.DataFrame(
    {'Title':['TITLE A', 'TITLE A', None, None], 'summary':['summaryA', 'summaryB', 
    'summaryC', 'summaryD']}
    )

df['_id'] = df.index
df['_id'] = df['_id'].apply(str)
df['Title2'] = df['Title'].fillna(df['_id'])  

df.drop_duplicates(subset ="Title2", keep = 'first')
anauzrmj

anauzrmj2#

你能做到的

data.drop_duplicates(subset ="TITLE", 
                     keep = 'last', inplace = True)

相关问题