pandas 检查行的列值是否等于同一 Dataframe 的其他行的当前列或其他列中的值

dgiusagp 于 2023-02-11 发布在其他

关注(0)|答案(1)|浏览(121)

我有以下的dataframe

| a| b_1       | b_2       |b_3  |c_1        | c_2       | c_3 |
|--|-----------|-----------|-----|-----------|-----------|-----|
|e1|3295.000000|-775.000000|604.5|3575.000000|-626.000000|604.5|
|e2|3615.000000|-731.000000|604.5|1          |0          |0    |
|e3|3615.000000|-731.000000|604.5|3575.000000|-626.000000|604.5| 
|e2|3615.000000|-731.000000|604.5|1          |0          | 0   | 
|e1|3295.000000|-775.000000|604.5|3575.000000|-626.000000|604.5|
|e4| 0         |0          | 0   |0          |0          | 0   |

我希望生成的dataframe如下所示

|a | b                              |c                              | d |  
|--|--------------------------------|-------------------------------|------|
|e1| [3295.000000,-775.000000,604.5]|[3575.000000,-626.000000,604.5]|e3| 
|e2| [3615.000000,-731.000000,604.5]|[1, 0, 0]                      |e3| 
|e3| [3615.000000,-731.000000,604.5]|[3575.000000,-626.000000,604.5]|e1, e2|
|e4| [0, 0, 0]                      |[0, 0, 0]                      |None  |

请注意，b和c包含大小为3的numpy数组。
用于填充列d的参数如下：
1.如果活动行的b中的值等于b中除其自身之外的任何其他记录，则取这些记录的a值。
1.如果活动行的b中的值等于c中除其自身之外的任何其他记录，则取这些记录的a值。
1.如果活动行的c中的值等于c中除其自身之外的任何其他记录，则取这些记录的a值。
1.无其他

pandas

来源：https://stackoverflow.com/questions/75410443/check-if-the-column-value-of-a-row-is-equal-to-values-in-current-or-other-column

1条答案

按热度按时间

t9aqgxwy1#

按a列使用DataFrame.drop_duplicates：

df1 = df.drop_duplicates().copy()
print (df1)

    a           b           c
0  e1   [1, 2, 3]  [1, 2, -3]
1  e2  [-1, 2, 3]   [1, 0, 0]
2  e3  [-1, 2, 3]  [1, 2, -3]
5  e4   [0, 0, 0]   [0, 0, 0]

然后将值转换为numpy数组，因为每列始终有相同的3个值b,c：

a = np.array(df1['b'].tolist())
b = np.array(df1['c'].tolist())

与广播比较，通过将False设置为对角掩码排除相同行：

m = (a == a[:, None]).all(axis=2) |  (b == b[:, None]).all(axis=2)
np.fill_diagonal(m, False)
print (m)
[[False False  True False]
 [False False  True False]
 [ True  True False False]
 [False False False False]]

然后使用numpy.dot作为df1['a']的连接值，删除最后一个,并替换空字符串：

df1['d'] = np.dot(m, df1['a'] + ',')
df1['d'] = df1['d'].str[:-1].replace('', np.nan, regex=True)
print (df1)
    a           b           c      d
0  e1   [1, 2, 3]  [1, 2, -3]     e3
1  e2  [-1, 2, 3]   [1, 0, 0]     e3
2  e3  [-1, 2, 3]  [1, 2, -3]  e1,e2
5  e4   [0, 0, 0]   [0, 0, 0]    NaN

赞(0）回复(0）举报 2023-02-11

我来回答

pandas 检查行的列值是否等于同一 Dataframe 的其他行的当前列或其他列中的值

1条答案

相关问题

热门标签

最新问答