在新文件中插入结果

33qvvth1  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(424)

我正在使用文本格式的外部表上的配置单元。我每小时填充一次这个表,但我按月对表进行分区(数据集相对较小)。每小时我都想在一些分区中插入新数据。
insert into子句导致在包含旧数据的现有分区中创建新文件。这样在月底,我将在每个分区中有大约700个小文件。
hive有没有一种方法可以将数据附加到分区中的旧文件中(而不在旧数据上使用union all)?

42fyovps

42fyovps1#

不幸的是,这在目前是不可能的。希望随着fileappend补丁最近获得更多的关注,它最终将成为附加到现有文件的一个新特性。
我认为这是Hive的主要缺点之一。。。。尤其是当你开始处理更小的插入。

相关问题