如何将增量数据加载到分区配置单元表中
我的表“users”包含以下列,我已经基于created\u on字段创建了hive分区
id bigint,
name string,
created_on string(yyyy-MM-dd),
updated_on string
我已经创建了一个sqoop作业,以便根据上次修改的日期增量导入
sqoop job --create users -- import --connect jdbc:mysql://<ip>/product --driver com.mysql.jdbc.Driver --username <> -P --table users --incremental lastmodified --check-column updated_on --last-value "2016-11-15"--hive-table users --hive-import --hive-partition-key created_on --hive-partition-value "2016-11-15" --m 1
如果您观察上面的作业,这将根据上次修改的值获取并插入错误的分区
这个问题有解决办法吗
1条答案
按热度按时间bpzcxfmw1#
你在一个分区中加载一列,并期望基于另一列进行写入?只是“不匹配”。
解决方案似乎是使负载和分区对齐。
因此,如果要写入created_on等于2016-11-15的所有记录,那么也要确保完全加载这些记录(我想您不应该在这种情况下使用标准的增量功能)。