嗨,我在hdfs位置导入db2表数据,然后加载到我的配置单元表中。在db2表中,我有一个列描述,其中我有多行数据(新行/回车/空行等),当我从sqoop导入数据时,它作为新行,我的计数不匹配。当我在配置单元表中再次加载此数据时,它将作为新行,并给出与导入文件相同的计数。是否有任何方法可以处理这种情况(最好在hive端,而不是sqoop端),以便在加载hive时可以处理新行数据。
注意:我正在使用下面的属性创建配置单元表。
row format delimited fields terminated by ',' stored as textfile;
我也尝试过休闲地产。
row format delimited fields terminated by '|' ESCAPED BY '\r' stored as textfile;
row format delimited fields terminated by '|' ESCAPED BY '\n\r' stored as textfile;
row format delimited fields terminated by '|' ESCAPED BY '\\' stored as textfile;
但到现在为止,我什么都没用。有人能告诉我在Hive里该怎么处理吗。
注意:当我在notepad++中检查每一行的数据时,它的末尾都会显示“lf”。对于不完整的行(数据中的新行),其cr lf位于末尾。
或者在sqoop导入之后有没有什么方法可以清理这个源文件。我试过了。
cat yourfile | tr -d "\r" > newfile
sed '/^$/d' sourcefile > /newfile
但到目前为止,一切都没起作用。
暂无答案!
目前还没有任何答案,快来回答吧!