sqoop导入，不使用split-by

but5z9lq 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(495)

我正在尝试导入一个teradata表，它有一个复合键作为主键。因此设置 --num mapper 在没有 --split-by 参数。但是，我遇到了以下问题。请帮忙。

Error: java.io.IOException: SQLException in nextKeyValue
    at org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:277)
    at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:556)
    at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:80)
    at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:91)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
    at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1709)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)
Caused by: com.teradata.jdbc.jdbc_4.util.JDBCException: [Teradata Database] [TeraJDBC 14.00.00.01] [Error 3707] [SQLState 42000] Syntax error, expected something like a name or a Unicode delimited identifier between the word 'Record' and the 'Start' keyword.
    at com.teradata.jdbc.jdbc_4.util.ErrorFactory.makeDatabaseSQLException(ErrorFactory.java:307)
    at com.teradata.jdbc.jdbc_4.statemachine.ReceiveInitSubState.action(ReceiveInitSubState.java:102)
    at com.teradata.jdbc.jdbc_4.statemachine.StatementReceiveState.subStateMachine(StatementReceiveState.java:298)
    at com.teradata.jdbc.jdbc_4.statemachine.StatementReceiveState.action(StatementReceiveState.java:179)
    at com.teradata.jdbc.jdbc_4.statemachine.StatementController.runBody(StatementController.java:120)
    at com.teradata.jdbc.jdbc_4.statemachine.StatementController.run(StatementController.java:111)
    at com.teradata.jdbc.jdbc_4.TDStatement.executeStatement(TDStatement.java:372)
    at com.teradata.jdbc.jdbc_4.TDStatement.prepareRequest(TDStatement.java:541)
    at com.teradata.jdbc.jdbc_4.TDPreparedStatement.<init>(TDPreparedStatement.java:96)
    at com.teradata.jdbc.jdk6.JDK6_SQL_PreparedStatement.<init>(JDK6_SQL_PreparedStatement.java:21)
   at com.teradata.jdbc.jdk6.JDK6_SQL_Connection.constructPreparedStatement(JDK6_SQL_Connection.java:76)
    at com.teradata.jdbc.jdbc_4.TDSession.prepareStatement(TDSession.java:1491)
    at org.apache.sqoop.mapreduce.db.DBRecordReader.executeQuery(DBRecordReader.java:101)

hadoop sqoop

来源：https://stackoverflow.com/questions/38627074/sqoop-import-without-split-by

2条答案

按热度按时间

sirbozc51#

尝试在sqoop命令中使用-m1而不是--num mapper 1。

赞(0）回复(0）举报 2021-05-30

00jrzges2#

你必须使用 --split-by 或者 --boundary-query 选项，不管 --num-mappers 或者 -m 选项。
拆分列不一定等于pk。您可以有复杂的pk和一些int-split列。但是使用组合键中的一列作为 --split-by 选项。 --split-by 用于拆分工作单元的表的~~>列
也试试看 --boundry-query + --split-by 如果以上选项（仅限 --split-by )不起作用：

sqoop import \
  --connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" \
  --username=retail_dba \
  --password=cloudera \
  --table departments \
  --target-dir /user/cloudera/departments \
  -m 2 \
  --boundary-query "select 2, 8 from departments limit 1" \
  --split-by department_id

默认情况下，sqoop将使用query select min(<split-by>), max(<split-by>) from <table name> 找出创建拆分的边界。在某些情况下，此查询不是最佳查询，因此可以使用指定任何返回两个数值列的任意查询 --boundary-query 争论。
请在此处查看详细说明：https://stackoverflow.com/a/37389134/2079249
选择要导入的数据

赞(0）回复(0）举报 2021-05-29

我来回答

sqoop导入，不使用split-by

2条答案

相关问题

热门标签

最新问答