如何在PySpark DataFrame中删除所有包含空值的列？

oo7oh9g9 于 2022-11-01 发布在 Spark

关注(0)|答案(2)|浏览(319)

我有一个大型数据集，我想删除其中包含null值的列，并返回一个新的 Dataframe 。我该怎么做呢？
下面的代码只删除包含null的单列或单行。

df.where(col("dt_mvmt").isNull()) #doesnt work because I do not have all the columns names or for 1000's of columns
df.filter(df.dt_mvmt.isNotNull()) #same reason as above
df.na.drop() #drops rows that contain null, instead of columns that contain null

比如说

a |  b  | c
1 |     | 0
2 |  2  | 3

在上面的例子中，它将删除整个列B，因为它的一个值为空。

pyspark

来源：https://stackoverflow.com/questions/51322445/how-to-drop-all-columns-with-null-values-in-a-pyspark-dataframe

2条答案

按热度按时间

pb3skfrl1#

以下是删除所有具有NULL值的列的一种可能方法：有关按列计算NULL值的代码的源代码，请参见here。

import pyspark.sql.functions as F

# Sample data

df = pd.DataFrame({'x1': ['a', '1', '2'],
                   'x2': ['b', None, '2'],
                   'x3': ['c', '0', '3'] })
df = sqlContext.createDataFrame(df)
df.show()

def drop_null_columns(df):
    """
    This function drops all columns which contain null values.
    :param df: A PySpark DataFrame
    """
    null_counts = df.select([F.count(F.when(F.col(c).isNull(), c)).alias(c) for c in df.columns]).collect()[0].asDict()
    to_drop = [k for k, v in null_counts.items() if v > 0]
    df = df.drop(*to_drop)
    return df

# Drops column b2, because it contains null values

drop_null_columns(df).show()

之前：

+---+----+---+
| x1|  x2| x3|
+---+----+---+
|  a|   b|  c|
|  1|null|  0|
|  2|   2|  3|
+---+----+---+

之后：

+---+---+
| x1| x3|
+---+---+
|  a|  c|
|  1|  0|
|  2|  3|
+---+---+

希望这对你有帮助！

赞(0）回复(0）举报 2022-11-01

bf1o4zei2#

如果我们只需要保留那些至少有一个检查过的列不为空的行，那么就使用这个方法。执行时间非常短。

from operator import or_
from functools import reduce

inspected = df.columns
df = df.where(reduce(or_, (F.col(c).isNotNull() for c in inspected ), F.lit(False)))```

赞(0）回复(0）举报 2022-11-01

我来回答

如何在PySpark DataFrame中删除所有包含空值的列？

2条答案

相关问题

热门标签

最新问答