pandas df与duplicates_dropped的并排比较

fcipmucu 于 2023-05-05 发布在其他

关注(0)|答案(4)|浏览(153)

我有以下非常基本的df：
df1：

df2：

我想对它们进行比较，结果只显示存在差异的行/列，但我还需要知道原始df的外观，以便跟踪差异的原因。预期输出应为：

A_df1 B_df1 A_df2 B_df2
1     2     5     2     7

在执行这种差异比较/外部连接时，我总是使用下面的标准代码：

pd.merge(df1, df2, how='outer')
pd.concat([df1, df2]).drop_duplicates(keep=False)

使用concat和drop_duplicates组合是很好的，但是，它不允许我并排查看差异来自哪里-它只显示我的差异，我需要一个接一个地跟踪它们。
我试着在下面的列中添加前缀，这是有意义的：

df1_with_suffix = df1.add_suffix('_df1')
df2_with_suffix = df2.add_suffix('_df2')

然而，我不明白为什么当我执行concat/drop_duplicates时，我继续获得所有数据-即。重复项没有被丢弃？

pandas

来源：https://stackoverflow.com/questions/76162536/side-by-side-comparison-of-dfs-with-duplicates-dropped

4条答案

按热度按时间

tf7tbtn21#

按照您的方法，您可以添加unstack以进行 * 并排 * 比较：

out = (pd.concat([df1, df2], keys=["df1", "df2"])
           .drop_duplicates(keep=False).unstack(0).sort_index(axis=1, level=1)
           .pipe(lambda x: x.set_axis(x.columns.map("{0[0]}_{0[1]}".format), axis=1)))

输出：

print(out)

   A_df1  B_df1  A_df2  B_df2
1      2      5      2      7

赞(0）回复(0）举报 2023-05-05

7d7tgy0s2#

您可以尝试：

details = {
    'a' : [1, 2, 3, 4],
    'Age_a' : [23, 21, 22, 21]}

df = pd.DataFrame(details)
  
details_2 = {'a' : [1, 2, 3, 4],
    'Age_b' : [23, 21, 100, 21]}

df2 = pd.DataFrame(details_2)
df_all = pd.merge(df, df2[['a', 'Age_b']], on = ['a'], how='left')
df_all = df_all.loc[(df_all['Age_a'] - df_all['Age_b']) != 0 ]

 #   a  Age_a   Age_b
 #   2  3   22  100

赞(0）回复(0）举报 2023-05-05

xpcnnkqh3#

我没有正确理解你的问题。首先，我想说concat和drop_duplicates并不适合你要做的事情。
你的代码问题：在同一数据框中重复（例如DF1）也被移除。
使用以下代码：

cond1 = ~df1.eq(df2).all(axis=1)
pd.concat([df1.add_suffix('_df1')[cond1], df2.add_suffix('_df2')[cond1]], axis=1)

输出：

A_df1 B_df1 A_df2 B_df2
1     2     5     2     7

如果你还需要什么，请详细解释，我会帮你的。

赞(0）回复(0）举报 2023-05-05

m2xkgtsf4#

当你做df1.add_suffix('_df1')和df2.add_suffix('_df2')时，有4列要比较，例如，A_df1和A_df2被认为是不同的列，所以不会有重复的行。
我喜欢你的pd.concat()和drop_duplicates()的组合，这是伟大的！
但是，您可以继续对索引进行排序，然后将奇数行与偶数行并排连接起来，例如

import pandas as pd

df1 = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6]})
df2 = pd.DataFrame({'A': [1,2,3], 'B': [4,7,6]})

df = pd.concat([df1, df2]).drop_duplicates(keep=False).sort_index()
output = pd.concat([df.add_suffix('_df1').iloc[::2], df.add_suffix('_df2').iloc[1::2]], axis=1)
print(output)

输出

A_df1  B_df1  A_df2  B_df2
1      2      5      2      7

请注意，行索引1被保留，因此您可以返回到df1和df2来查找该索引中的差异。

赞(0）回复(0）举报 2023-05-05

我来回答

pandas df与duplicates_dropped的并排比较

4条答案

相关问题

热门标签

最新问答