为了在pyspark中获得更高效的连接,我希望同时在多个列上重新划分 Dataframe 。
这不是repartition
函数已经完成的任务。例如,如果我在列'c1'和'c2'上进行分区,reparition
函数只能确保具有值对(c1, c2)
的所有行都位于同一分区中。相反,我希望进行分区,以确保具有相同值c1
的所有行都位于同一分区中。并且对于c2
也是如此。
有了这个,我希望在c1
上执行一个连接,然后在c2
上执行另一个连接时优化我的管道,而不必(隐式或显式)修复两次。
有没有可能做到这一点?
1条答案
按热度按时间31moq8wy1#
根据您的请求,如何正确地对以下行进行分区?