我有两张table。一个是扣的另一个不是-除了他们是相同的。两者都存储为orc并分区。在给定分区上查询带扣表比在同一分区上查询其孪生表慢得多。是预期的吗?如果不是,原因是什么?如果是的话,那么我是否应该得出结论,我持有一个带扣表的唯一动机是为了连接和采样,在这种情况下,持有该表的两个副本-一个带扣,另一个不带扣(听起来很浪费)?
u0sqgete1#
当前配置单元不支持where子句中列的与bucketing相关的查询优化。不过,在连接操作期间,bucketing将是有益的。在上面提到的用例中,分区和orc以及按排序顺序存储的数据应该会给您最好的响应。
1条答案
按热度按时间u0sqgete1#
当前配置单元不支持where子句中列的与bucketing相关的查询优化。不过,在连接操作期间,bucketing将是有益的。在上面提到的用例中,分区和orc以及按排序顺序存储的数据应该会给您最好的响应。