目前,我正在使用带有s3存储的hive。
我现在总共有1000000个分区。我面临的问题是:
如果我这样做了:
查询执行时间小于1秒。
select sum(metric) from foo where pt_partition_number = 'bar1'
select sum(metric) from foo where pt_partition_number = 'bar2'
但如果我这么做了
select sum(metric) from foo where pt_partition_number IN ('bar1','bar2')
查询大约需要30秒。我想hive正在做目录扫描以防第二次查询。
有没有优化查询的方法:我的请求模式总是访问两个分区的数据。
暂无答案!
目前还没有任何答案,快来回答吧!