hive查询在一个bucked表上的速度很慢

sgtfey8w  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(436)

我有两张table。
一个是扣的另一个不是-除了他们是相同的。
两者都存储为orc并分区。
在给定分区上查询带扣表比在同一分区上查询其孪生表慢得多。
是预期的吗?
如果不是,原因是什么?
如果是的话,那么我是否应该得出结论,我持有一个带扣表的唯一动机是为了连接和采样,在这种情况下,持有该表的两个副本-一个带扣,另一个不带扣(听起来很浪费)?

u0sqgete

u0sqgete1#

当前配置单元不支持where子句中列的与bucketing相关的查询优化。不过,在连接操作期间,bucketing将是有益的。在上面提到的用例中,分区和orc以及按排序顺序存储的数据应该会给您最好的响应。

相关问题