spark group by/over partition的性能很差

rjjhvcjd 于 2021-06-26 发布在 Hive

关注(0)|答案(0)|浏览(222)

我正在尝试对140万条记录的数据集进行分组查询。
使用Hive需要2分钟，而在spark中使用相同的资源需要约40分钟
我肯定我做错了什么，因为hive和spark之间的这种差异在一个简单的基本查询中是没有意义的
我尝试了两种方法：
1.

Dataset <row> ds = batchDs.select (
col ("key"),
col ("ts")).groupby (col ("key"),col("ts"))

sparkSession.sql ("select ket ts from x group by key,ts")

两个查询都需要40分钟。我知道在这种情况下，我可以做不同的，但这不是我真正的问题。
我尝试过分区并得到同样糟糕的性能，所以我尝试用与过分区（groupby）非常相似的更基本的操作来简化问题
还有想法？谢谢您

目前还没有任何答案，快来回答吧！

相关问题