我正在将数据从db2加载到hive表中,并附带一些场景。
my db2 table column(id,country,city,dt1)
db2 table data(1,india,delhi ,mumbai ,bangalore,01-01-2019)
(2,india,kolkatta,01-01-2019)
in city column i have data=delhi,mumbai,bangalore for 1st row and kotkatta in 2nd row
my hive table column(id string,country string,city string,dt string)
我正在从db2表导出csv格式的数据,并使用load命令将数据加载到hive表中。下面是my hive create table语句。
create table hive_table(id string, country string,city string) partitioned by(dt1 string)
row format delimited fields terminated by ',' stored as orcfile;
然后使用下面的命令加载数据。
load data inpath 'dbfilepath' into table hivetable.
当我在做
select dt1, count(1) as count from hivetable group by dt1;
我的产量正在下降。
dt | count
01-01-2019 | 1
__HIVE_DEFAULT_PARTITION__ | 1
这是因为我的第一行的city列数据,因为我在hive table create语句中使用以“,”结尾的字段,它将这个delhi、mumbai加载到不同的列中,无法创建正确的分区。
有人能告诉我该如何处理这种情况吗?我是否需要在配置单元端进行一些更新,或者是否有任何实用程序可以直接将这些数据加载到配置单元表中。?
暂无答案!
目前还没有任何答案,快来回答吧!