pandas 如何删除NaN最多的DataFrame行？

bmvo0sr5 于 2023-05-15 发布在其他

关注(0)|答案(1)|浏览(139)

Pandas和本网站的其他问题/答案为我们知道要保存的非NaN数量的情况提供了解决方案。我怎样才能有效地删除最差的行，或者如果有多个行是最差的行。下面的一些示例显示了如何通过设置轴来删除列，也可以是行。但是，我们需要指定要保留多少个非NaN。

>>> import numpy as np
>>> df = pd.DataFrame([[1,np.nan,1,np.nan], [1,1,1,1], [1,np.nan,1,1], [np.nan,1,1,1]], columns=list('ABCD'))
     A    B  C    D
0  1.0  NaN  1  NaN
1  1.0  1.0  1  1.0
2  1.0  NaN  1  1.0
3  NaN  1.0  1  1.0

>>> df.dropna(thresh=3, axis=1)
     A  C    D
0  1.0  1  NaN
1  1.0  1  1.0
2  1.0  1  1.0
3  NaN  1  1.0

或者将它们全部删除：

>>> df.dropna(axis=1)
   C
0  1
1  1
2  1
3  1

注意我在下面给予更多的背景。虽然一个具体的解决方案的提示是受欢迎的，我更喜欢一个关于一般情况的答案，如文章标题所述。
上下文我正在寻找一种有效的方法来删除具有最大数量NaN的行（或者如果在最大数量处存在关系，则删除行），然后类似地删除列，以便我可以重复这两个步骤，直到所有NaN被删除。目标是删除NaN，保留保持表一致的最大可能数据量，即只允许删除整个行/列。请阅读上面的通知。

上面的例子摘自这个答案：https://stackoverflow.com/a/68306367/9681577

pandas

来源：https://stackoverflow.com/questions/76248909/how-to-delete-the-dataframe-rows-with-the-largest-number-of-nans

1条答案

按热度按时间

z0qdvdin1#

您可以使用布尔索引与NaN的计数：

# count the number of NaNs per row
s = df.isna().sum(axis=1)

# drop rows which have the max number, if > 0
out = df[~(s.eq(s.max()) & s.gt(0))]

De Morgan's等价性：

out = df[s.ne(s.max()) | s.eq(0)]

输出：

A    B  C    D
1  1.0  1.0  1  1.0
2  1.0  NaN  1  1.0
3  NaN  1.0  1  1.0

列

另一个轴上的逻辑相同：

s = df.isna().sum(axis=0)

out = df.loc[:, s.ne(s.max()) | s.eq(0)]

输出：

A  C    D
0  1.0  1  NaN
1  1.0  1  1.0
2  1.0  1  1.0
3  NaN  1  1.0

赞(0）回复(0）举报 2023-05-15

我来回答

pandas 如何删除NaN最多的DataFrame行？

1条答案

列

相关问题

热门标签

最新问答