sqoop导出1亿条记录的速度更快

brc7rcf0  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(382)

我有类似的疑问如下

sqoop export 
    --connect jdbc:teradata://server/database=BIGDATA 
    --username dbuser 
    --password dbpw 
    -Dsqoop.export.records.per.statement=500
    --batch 
    --hive-table country
    --table COUNTRY
    --input-null-non-string '\\N' \ --input-null-string '\\N'

对于300万条记录,上面的查询可以正常工作(将数据加载到teradata表需要1小时)。对于1亿条将数据导出到teradata空表的记录,我认为完成导出可能需要更多的时间。如何高效地编写查询以更快地导出数据而不使查询失败?

68de4m5k

68de4m5k1#

你可以考虑增加你的收入 --fetch-size (sqoop必须从默认值中获取每一勺数据的条目数) 1000
e.g --fetch-size 10000 0r 20000 取决于可用内存和环境带宽。

相关问题