在hive中的Bucked表中增量加载数据?

eoigrqb6  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(414)

我还在学Hive。为了理解Hive中桶的概念,我参考了几本书。我学到的是,如果我们强制bucketing,它将创建与bucket数完全相同的文件数。
在我的例子中,我将在Bucked表中一天增量加载五次数据。例如:如果我有一个包含16个bucket的表,那么每次加载它都会基于hash/samples创建16个文件。因此,总共5次运行,将创建80个文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?
1tu0hz3e

1tu0hz3e1#

是否为每个增量加载创建不同的表?
您使用哪个hadoop发行版?
我使用相同的策略,每次增量加载都会生成(并覆盖)我定义的相同数量的bucket。
当我们有权限问题时,会有重复的文件,因为配置单元表是用配置单元用户创建的,而填充是用另一个(hdfs)进行的。
在/user/hive/warehouse目录中查找表目录的所有者/权限,然后在子目录中查找相同的所有者/权限

相关问题