优化配置单元查询请求来自两个分区的数据

7dl7o3gd  于 2021-06-27  发布在  Hive
关注(0)|答案(0)|浏览(525)

目前,我正在使用带有s3存储的hive。
我现在总共有1000000个分区。我面临的问题是:
如果我这样做了:
查询执行时间小于1秒。

select sum(metric) from foo where pt_partition_number = 'bar1'

select sum(metric) from foo where pt_partition_number = 'bar2'

但如果我这么做了

select sum(metric) from foo where pt_partition_number IN ('bar1','bar2')

查询大约需要30秒。我想hive正在做目录扫描以防第二次查询。
有没有优化查询的方法:我的请求模式总是访问两个分区的数据。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题