首先我要道歉,因为我没有足够的词汇来正确地谈论Hive,我不确定排成一行的内容是否叫做数据等等,我正在尽可能地正确。
我想知道是否有可能,在不向配置单元表添加额外列的情况下(您将在其中放置日期/一些元数据),新行添加了什么。
具体情况如下:将要处理大量数据,而选定的数据将在另一个配置单元表中结束。如果一些新数据被添加到原始表中,我只想处理这些新数据,而不是重新处理整个过程,因为这似乎是浪费(我们说的是几百万个条目)。
我通常会添加一个带有日期的新列,或者只是一个元数据,它告诉我一行是否已经被“计算”了。
编辑:我已经更新了更多的信息。事实上,有两个问题。
首先,可能会有新的数据出现,在目标表中插入新的数据会更好。
其次,数据可能会更新。有人告诉我,hive不允许正常意义上的更新,因为例如insert overwrite只会重写整个集合(原来是hive0.12.0,在0.14中添加了一些功能,但不可能更新)。
暂无答案!
目前还没有任何答案,快来回答吧!