sparkDataframe排序在spark 1.6的集群环境中不起作用

5cnsuln7  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(159)

在群集环境下的spark 1.6中,我们在Dataframe上的数据排序方面面临一定的挑战。我们正在使用 df.orderBy(userColumn, rankColumn) . 当数据在一个分区中时,数据的排序是正确的。一旦分区大小增加,Dataframe排序就不能在集群环境中工作。我们尝试了按方法分发和排序,以及按照以下帖子:http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/. 这也是行不通的。请建议。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题