groupby在spark中使用null或“null”字符串时的性能差异

ogsagwnx  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(194)

最近做了一些测试,直到现在,传入的空值被解析为字符串 "null" ,防止它们传播,并可能会在以后弄乱方法。
我记得看到一些关于在.groupby中使用空(或null)字段的问题。假设我的案子是。。。

myDF.groupBy(
    notNullKey,
    couldBeNull
)

而且在 couldBeNull 这些值是完全随机的,但可以是例如 ["tomato", "example", null] .
将空值包含在前面提到的字符串中,这与在代码示例中发送空值相比,是否有任何显著的性能不同?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题