我有类似的疑问如下
sqoop export
--connect jdbc:teradata://server/database=BIGDATA
--username dbuser
--password dbpw
-Dsqoop.export.records.per.statement=500
--batch
--hive-table country
--table COUNTRY
--input-null-non-string '\\N' \ --input-null-string '\\N'
对于300万条记录,上面的查询可以正常工作(将数据加载到teradata表需要1小时)。对于1亿条将数据导出到teradata空表的记录,我认为完成导出可能需要更多的时间。如何高效地编写查询以更快地导出数据而不使查询失败?
1条答案
按热度按时间68de4m5k1#
你可以考虑增加你的收入
--fetch-size
(sqoop必须从默认值中获取每一勺数据的条目数)1000
至e.g
--fetch-size 10000 0r 20000
取决于可用内存和环境带宽。