我正在尝试对140万条记录的数据集进行分组查询。
使用Hive需要2分钟,而在spark中使用相同的资源需要约40分钟
我肯定我做错了什么,因为hive和spark之间的这种差异在一个简单的基本查询中是没有意义的
我尝试了两种方法:
1.
Dataset <row> ds = batchDs.select (
col ("key"),
col ("ts")).groupby (col ("key"),col("ts"))
sparkSession.sql ("select ket ts from x group by key,ts")
两个查询都需要40分钟。我知道在这种情况下,我可以做不同的,但这不是我真正的问题。
我尝试过分区并得到同样糟糕的性能,所以我尝试用与过分区(groupby)非常相似的更基本的操作来简化问题
还有想法?谢谢您
暂无答案!
目前还没有任何答案,快来回答吧!