在hive中分区和bucketing有什么区别?

7d7tgy0s  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(507)

这个问题在这里已经有答案了

在配置单元中对表进行分区和bucketing有什么区别(8个答案)
5年前关门了。
我不清楚在Hive中分区和bucketing之间的区别,如果您能提供一些示例细节,我将非常感激。

sh7euo9m

sh7euo9m1#

桶和分区之间有一个很好的区别。
基本上,分区和bucketing都对数据进行切片,以便比对非切片数据执行查询更有效。主要的区别是,当数据被修改时,在分区的情况下,片的数量将不断变化,但是使用bucketing时,片的数量是固定的,这是在创建表时指定的。
bucketing是通过使用哈希算法,然后对bucket的数量进行模运算来实现的。所以,一行可能会被插入到任何一个桶中。bucketing可以用于数据的采样,也可以用于连接两个数据集更加有效和更加复杂。

相关问题