pandas 如何合并两列,如果其中一列为空

wfveoks0  于 2023-03-28  发布在  其他
关注(0)|答案(4)|浏览(281)

我有一张table:
| A|B|C|
| --------------|--------------|--------------|
| x|1|不适用|
| y|不适用|四|
| z|二|不适用|
| p|不适用|五|
| t|六|七|
我想创建一个新的列D,如果其中一列为空(NA),则该列应合并列B和C:
| A|B|C|D|
| --------------|--------------|--------------|--------------|
| x|1|不适用|1|
| y|不适用|四|四|
| z|二|不适用|二|
| p|不适用|五|五|
| t|六|七|误差|
如果两列都包含一个值,则应在单元格内返回文本“error”。

qgelzfjb

qgelzfjb1#

你可以先用两个值都存在的行计算一个掩码,然后用列C的值填充列BNA的值,使用第一步计算的掩码,在需要的地方简单地分配NA的值。

error_mask = df['B'].notna() & df['C'].notna()
df['D'] = df['B'].fillna(df['C'])
df.loc[error_mask, 'D'] = pd.NA
df

   A     B     C     D
0  x     1  <NA>     1
1  y  <NA>     4     4
2  z     2  <NA>     2
3  p     3     5  <NA>

OR
df = df['D'].astype(str)
df.loc[error_mask, 'D'] = 'error'

我建议不要给两个值都存在的字符串error赋值,因为这会使整个D列成为object dtype

jchrr9hc

jchrr9hc2#

有几种方法可以实现这一点。
使用fillnamask

df['D'] = df['B'].fillna(df['C']).mask(df['B'].notna()&df['C'].notna(), 'error')

或者numpy.select

m1 = df['B'].notna()
m2 = df['C'].notna()
df['D'] = np.select([m1&m2, m1], ['error', df['B']], df['C'])

输出:

A    B    C      D
0  x  1.0  NaN    1.0
1  y  NaN  4.0    4.0
2  z  2.0  NaN    2.0
3  p  NaN  5.0    5.0
4  t  6.0  7.0  error
gkn4icbw

gkn4icbw3#

除了前面的答案之外,您还可以使用一系列.apply()方法和lambda函数来解决这个问题。
考虑您展示的 Dataframe ,其中np.nan为NA值:

df = pd.DataFrame({
    'B':[1, np.nan, 2, np.nan, 6], 
    'C':[np.nan, 4, np.nan, 5, 7]})

首先从相关系列中生成元素列表:

df['D'] = df.apply(lambda x: list(x), axis=1)

这将为您生成一个pd.Series,其中包含一系列值作为元素,例如第一行为[1.0, nan]。接下来,使用numpy中的np.nan != np.nan删除所有np.nan元素(另请参见此处的答案:How can I remove Nan from list Python/NumPy

df['E'] = df['D'].apply(lambda x: [i for i in x if i == i])

最后,通过基于长度的过滤创建error

df['F'] =  df['E'].apply(lambda x: x[0] if len(x) == 1 else 'error')

生成的 Dataframe 如下所示:

B   C   D   E   F
0   1.0 NaN [1.0, nan]  [1.0]   1.0
1   NaN 4.0 [nan, 4.0]  [4.0]   4.0
2   2.0 NaN [2.0, nan]  [2.0]   2.0
3   NaN 5.0 [nan, 5.0]  [5.0]   5.0
4   6.0 7.0 [6.0, 7.0]  [6.0, 7.0]  error

当然,你可以把所有这些都串成一个不那么冗长,但只有一行字的答案:a = df.apply(lambda x: list(x), axis=1).apply(lambda x: [i for i in x if i == i]).apply(lambda x: x[0] if len(x) == 1 else 'error')

6qfn3psc

6qfn3psc4#

看一下函数combine_first

df['C'].combine_first(df['B']).mask(df['B'].notna() & df['C'].notna(), 'error')

输出:

0      1.0
1      4.0
2      2.0
3      5.0
4    error
Name: C, dtype: object

相关问题