python-3.x 是否可以将Spark DataFrame划分为多个列,同时划分为所有单独的列?

oxf4rvwz  于 2023-01-14  发布在  Python
关注(0)|答案(1)|浏览(175)

为了在pyspark中获得更高效的连接,我希望同时在多个列上重新划分 Dataframe 。
这不是repartition函数已经完成的任务。例如,如果我在列'c1'和'c2'上进行分区,reparition函数只能确保具有值对(c1, c2)的所有行都位于同一分区中。相反,我希望进行分区,以确保具有相同值c1的所有行都位于同一分区中。并且对于c2也是如此。
有了这个,我希望在c1上执行一个连接,然后在c2上执行另一个连接时优化我的管道,而不必(隐式或显式)修复两次。
有没有可能做到这一点?

31moq8wy

31moq8wy1#

根据您的请求,如何正确地对以下行进行分区?

|c1|c2|
|-----|
|a | y|
|a | z|
|b | z|

相关问题