我正在使用文本格式的外部表上的配置单元。我每小时填充一次这个表,但我按月对表进行分区(数据集相对较小)。每小时我都想在一些分区中插入新数据。insert into子句导致在包含旧数据的现有分区中创建新文件。这样在月底,我将在每个分区中有大约700个小文件。hive有没有一种方法可以将数据附加到分区中的旧文件中(而不在旧数据上使用union all)?
42fyovps1#
不幸的是,这在目前是不可能的。希望随着fileappend补丁最近获得更多的关注,它最终将成为附加到现有文件的一个新特性。我认为这是Hive的主要缺点之一。。。。尤其是当你开始处理更小的插入。
1条答案
按热度按时间42fyovps1#
不幸的是,这在目前是不可能的。希望随着fileappend补丁最近获得更多的关注,它最终将成为附加到现有文件的一个新特性。
我认为这是Hive的主要缺点之一。。。。尤其是当你开始处理更小的插入。