pandas 比较两个dfs并打印其中一个中不存在的值

soat7uwm 于 2023-01-04 发布在其他

关注(0)|答案(1)|浏览(138)

我有两个数据框，我想比较这两个数据框并打印df 1中不存在的值。例如：

df1 = |id|check_column1|
      |21|abc|
      |21||bcd|
      |22|hqo|
      |22|hsd|
      |23|mno|

df2 = 

|id|check_column1|
      |21|abc|
      |22|hqo|
      |23|xyz|

我希望输出为

|id|check_column1|chack_colum2|
|23|mno|xyz|

我不希望输出包括其值已存在于df 1中的21-bcd和22-hsd。如果df 1中存在2个值，df 2中反映了1个值，则表示同一ID，我不希望将该ID视为未匹配。

df = pd.merge(df1,df2,left_on =['id',df1.groupby('id').cumcount()], right_on = ['id',df2.groupby('id').cumcount()] )

但这给了所有的错过匹配我想只是那是完全不同的彼此在两个表

pandas

来源：https://stackoverflow.com/questions/74559940/compare-two-dfs-and-print-the-values-that-are-not-present-in-one

1条答案

按热度按时间

ijnw1ujt1#

考虑以下设置：

import pandas as pd

df1 = pd.DataFrame(
    {"id": [21, 21, 22, 22, 23], "check_column1": ["abc", "bcd", "hqo", "hsd", "mno"]}
)
#    id check_column1
# 0  21           abc
# 1  21           bcd
# 2  22           hqo
# 3  22           hsd
# 4  23           mno
df2 = pd.DataFrame(
    {"id": [21, 22, 23, 23], "check_column1": ["abc", "hqo", "xyz", "www"]}
)
#    id check_column1
# 0  21           abc
# 1  22           hqo
# 2  23           xyz
# 3  23           www

如何为每个 Dataframe 的每个id创建一个set，然后计算对应id的 Dataframe 之间的集合差异？

g1 = df1.groupby("id").agg(set)
g2 = df2.groupby("id").agg(set)
diffs = pd.concat([g1 - g2, g2 - g1], axis=1)
diffs.columns = ["check_column1", "check_column2"]
#    check_column1 check_column2
# id                            
# 21         {bcd}            {}
# 22         {hsd}            {}
# 23         {mno}    {xyz, www}

这允许只选择df2中存在df1中没有的值的行：

df = diffs[diffs["check_column2"] != set()]
#    check_column1 check_column2
# id                            
# 23         {mno}    {xyz, www}

赞(0）回复(0）举报 2023-01-04

我来回答

pandas 比较两个dfs并打印其中一个中不存在的值

1条答案

相关问题

热门标签

最新问答