sqoop导出性能问题

daolsyd0  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(410)

我在通过sqoop导出将数据从hive导出到netezza时遇到性能问题。
有什么方法可以提高sqoop的性能吗?
详情如下:

columns present in the table(source and destination) : 282
format of file : text
no of splits: 99
data to be exported : 1000 MB
xdnvmnnf

xdnvmnnf1#

在sqoop export命令中使用-batch。也
为了进一步改善数据负载,可以使用--direct。限制:此模式不支持二进制和大型对象类型。

t3psigkw

t3psigkw2#

您的集群大小是多少,最多可以为sqoop作业分配多少个插槽?相应地给出-m。这将增加总体处理时间。但请确保sqoop导出不是原子进程,因此请创建一个临时表,然后使用临时表导出数据,否则可能会出现不一致的数据。

相关问题