在群集环境下的spark 1.6中,我们在Dataframe上的数据排序方面面临一定的挑战。我们正在使用 df.orderBy(userColumn, rankColumn)
. 当数据在一个分区中时,数据的排序是正确的。一旦分区大小增加,Dataframe排序就不能在集群环境中工作。我们尝试了按方法分发和排序,以及按照以下帖子:http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/. 这也是行不通的。请建议。
暂无答案!
目前还没有任何答案,快来回答吧!