类似于spark-pivot-one列,但保持其他列不变我正在寻找一种最好的方法来透视列,同时保留所有不属于groupby(按id分组)、pivot或聚合的列。现在我看到两个选项:
将Dataframea与其余的列(和id)连接起来,并将数据透视的结果与by id连接起来。注意:在spark中总是希望避免连接(由于洗牌)
将所有列添加到groupby,因为id是groupby的一部分,所以我可以根据需要获得唯一的结果,但是我担心添加这些冗余列时的性能。问题:spark在按冗余列分组时的行为如何
鉴于这两种方法产生相同的结果,我的问题是,在性能方面,什么是首选方案?
暂无答案!
目前还没有任何答案,快来回答吧!