python-3.x 是否可以将Spark DataFrame划分为多个列，同时划分为所有单独的列？

oxf4rvwz 于 2023-01-14 发布在 Python

关注(0)|答案(1)|浏览(175)

为了在pyspark中获得更高效的连接，我希望同时在多个列上重新划分 Dataframe 。
这不是repartition函数已经完成的任务。例如，如果我在列'c1'和'c2'上进行分区，reparition函数只能确保具有值对(c1, c2)的所有行都位于同一分区中。相反，我希望进行分区，以确保具有相同值c1的所有行都位于同一分区中。并且对于c2也是如此。
有了这个，我希望在c1上执行一个连接，然后在c2上执行另一个连接时优化我的管道，而不必（隐式或显式）修复两次。
有没有可能做到这一点？

python-3.x

来源：https://stackoverflow.com/questions/75108992/is-it-possible-to-have-a-spark-dataframe-partitioned-by-multiple-columns-and-at