sqoop中的增量加载

cl25kdpy  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(362)

我有一个teradata表,每天都会加载新数据。
我需要将此数据导入配置单元。我正在尝试使用sqoop,但是我应该如何使用sqoop进行增量加载呢?
我检查了sqoop中可用的增量加载选项

--check-col

这个选项只需要数字和唯一的数据,而我的teradata表没有这样的列
我用的是date column inn——spli by
在这种情况下,如何向配置单元进行增量导入?
请建议

m3eecexj

m3eecexj1#

在check列之后再使用一个“--append”命令,这样,新数据就不会被替换,并且您可以看到它保存在hdfs中的新文件中,而不替换旧文件。

cyvaqqii

cyvaqqii2#

如果你使用 --incremental lastmodified 模式然后你的 --check-column 是不需要是数字或唯一的时间戳。
请参阅:sqoop增量导入。

相关问题