groupby在spark中使用null或“null”字符串时的性能差异

ogsagwnx 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(194)

最近做了一些测试，直到现在，传入的空值被解析为字符串 "null" ，防止它们传播，并可能会在以后弄乱方法。
我记得看到一些关于在.groupby中使用空（或null）字段的问题。假设我的案子是。。。

myDF.groupBy(
    notNullKey,
    couldBeNull
)

而且在 couldBeNull 这些值是完全随机的，但可以是例如 ["tomato", "example", null] .
将空值包含在前面提到的字符串中，这与在代码示例中发送空值相比，是否有任何显著的性能不同？

目前还没有任何答案，快来回答吧！

相关问题