我正在尝试将我的130gb数据从s3导出到auroa/mysql-rds。我有10个节点的集群 10r4.4xlarge
配置。极光亮了
Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)
另外,当我运行sqoop命令时,我可以看到917Map器被启动。但导出速度仍然非常慢,加载所有数据需要2个多小时。
这是我试图执行的sqoop命令。
sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1
有什么方法可以改进sqoop导出吗?我尝试使用每个事务的记录,但结果仍然相同。
请建议。。
1条答案
按热度按时间vngu2lb81#
您可以批量导出它,分区也会有所帮助,但是还有更多的解决方案。你可以参考这个hortonworks链接https://community.hortonworks.com/articles/70258/sqoop-performance-tuning.html 找到更多的性能调整方法。