pyspark pivot保留其余的列

mzsu5hc0  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(339)

类似于spark-pivot-one列,但保持其他列不变我正在寻找一种最好的方法来透视列,同时保留所有不属于groupby(按id分组)、pivot或聚合的列。现在我看到两个选项:
将Dataframea与其余的列(和id)连接起来,并将数据透视的结果与by id连接起来。注意:在spark中总是希望避免连接(由于洗牌)
将所有列添加到groupby,因为id是groupby的一部分,所以我可以根据需要获得唯一的结果,但是我担心添加这些冗余列时的性能。问题:spark在按冗余列分组时的行为如何
鉴于这两种方法产生相同的结果,我的问题是,在性能方面,什么是首选方案?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题