使用sqoop导出配置单元表时,某些行没有分隔

koaltpgm  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(309)

我有一个用hive生成的表(在amazon弹性mapreduce jobflow上)。我可以看到数据在 hdfs:///mnt/hive_081/warehouse/[table name] .
我已经将sqoop Package 在一个jar中(没有任何更改),并将其上传到主节点进行测试。
我运行sqoop jar的方式如下:

/usr/lib/jvm/java-6-sun/bin/java -cp /home/hadoop/conf:/usr/lib/jvm/java-6-sun/lib/tools.jar:/home/hadoop:/home/hadoop/hadoop-tools-1.0.3.jar:/home/hadoop/hadoop-tools.jar:/home/hadoop/hadoop-core-1.0.3.jar:/home/hadoop/hadoop-core.jar:/home/hadoop/lib/*:/home/hadoop/lib/jetty-ext/* -Xmx1000m -Dhadoop.log.dir=/mnt/var/log/hadoop/steps/6 -Dhadoop.log.file=syslog -Dhadoop.home.dir=/home/hadoop -Dhadoop.id.str=hadoop -Dhadoop.root.logger=INFO,DRFA -Djava.io.tmpdir=/mnt/var/lib/hadoop/steps/6/tmp -Djava.library.path=/home/hadoop/native/Linux-i386-32 org.apache.hadoop.util.RunJar /home/hadoop/fsa/anet-dw-sqoop-0.0.1-SNAPSHOT.jar $ARGS

其中$args是(省略敏感的mysql标志):

--export-dir hdfs:///mnt/hive_081/warehouse/[table name] --input-null-non-string '\\\N' --direct --input-null-string '\\\N' --username root --input-fields-terminated-by '\0x009' --driver com.mysql.jdbc.Driver --table [table name]

我在模拟的十行数据上测试这个。没有空值。每一行在所有列中重复相同的数字是唯一的。当我执行命令时,我得到很多

java.lang.NumberFormatException: For input string: "231 231     231     231     231     231     231     231     231     231     231     231     231     231     231     231     231      231     231     231     231     231     -25     231     -25     -25     231     231     -25"

我每次都会从相同的4行(共10行)中得到这个消息(忽略负值,那些是tinyint列,无法容纳数字)。
您可以看到,行中前两个值之间的空间要小得多。这是我的问题吗?是什么原因造成的?仅供参考,如果我将数据文件从hdfs复制到本地fs,并指向它,我将不会收到此消息-但数据也没有到达其目标:/。无论如何,我正在尝试自动化一个多步骤的过程,所以我希望能够直接对hdfs数据进行操作,而无需复制任何内容。
非常感谢您的建议!

更新:当我使用逗号作为分隔符时也会发生这种情况。这是观察到的相同的四行。当我将配置单元表限制为只有一行(而不是以前测试中的一个错误行)时,同样的错误也会发生。

zzwlnbp8

zzwlnbp81#

在sqoop export的参数中,--以value结尾的输入字段必须不带引号。这起作用了:
--输入字段以\t结尾

相关问题