我对这项技术还不熟悉。我们收到的文件可能包含过期记录。我们必须从中将数据加载到配置单元表中,该配置单元表将仅插入(在事务处理日期进行分区)。我需要知道在表中插入记录的机制是什么,其中trans\u date是回溯的。事务处理日期(列)是事务处理日期,记录日期(列)是记录插入表的日期。
qfe3c7zg1#
你可以用很多方法和不同的工具来做。在新文件目录顶部创建增量表,或使用 LOAD 命令将文件放入增量表,或使用 hadoop fs -cp 相同的命令。好吧,现在有了一个包含增量数据的表。下一步是将主表加载到适当的分区中,如果只插入,不更新,则使用
LOAD
hadoop fs -cp
INSERT INTO TABLE PARTITION(trans_date) select col1, col2, trans_date from incr_table; --filter if necessary
删除incr\u表或仅删除表增量位置中的数据,然后重新使用该表。或按记录日期(或文件日期)在表中分区(如果适用),并且从不删除、加载和选择新分区。如果需要使用增量数据更新旧记录,请参见以下答案:https://stackoverflow.com/a/37744071/2700344
1条答案
按热度按时间qfe3c7zg1#
你可以用很多方法和不同的工具来做。
在新文件目录顶部创建增量表,或使用
LOAD
命令将文件放入增量表,或使用hadoop fs -cp
相同的命令。好吧,现在有了一个包含增量数据的表。
下一步是将主表加载到适当的分区中,如果只插入,不更新,则使用
删除incr\u表或仅删除表增量位置中的数据,然后重新使用该表。或按记录日期(或文件日期)在表中分区(如果适用),并且从不删除、加载和选择新分区。
如果需要使用增量数据更新旧记录,请参见以下答案:https://stackoverflow.com/a/37744071/2700344