使用考拉时,对所有null/nan值的Dataframe求和的好方法是什么?
或者说另一种方式
如何按列返回空值总数的列表。如果可能的话,我尽量避免将Dataframe转换为spark或pandas。
注: .sum()
省略考拉中的空值(skipna:boolean,默认为true-不能更改为false)。这么跑 df1.isnull().sum()
这是不可能的
numpy被列为一种替代方法,但是由于Dataframe在考拉中,我观察到.sum()仍然忽略了nan值。
免责声明:我知道我可以运行的SparkPandas,但我明白这是反作用的资源明智。我不太愿意从spark或pandasDataframe中求和,然后将Dataframe转换成考拉(在我看来,这又是在浪费资源)。我正在使用一个包含73列和4百万行的数据集。
暂无答案!
目前还没有任何答案,快来回答吧!