从oracle导入sqoop行为

e4eetjau  于 2021-06-03  发布在  Sqoop
关注(0)|答案(1)|浏览(346)

我想使用sqoop将大表从oracle数据库导入hdfs。由于表的大小是巨大的,并且有主键,sqoop可以并行运行多个Map器。
我有一些问题要问
1) 由于oracle数据库中的错误记录,一个Map程序出现异常,其他Map程序运行正常。所以所有的作业都会失败,或者除了一个Map器数据,其他Map器都会在hdfs中写入数据?
2) 如果我们选择hive--m选项,sqoop足够智能,可以运行并行Map程序。如果我们给--m4,那么sqoop可以根据表的大小增加Map器,或者它只运行4?
有人遇到过这种情况吗??

omtl5h9j

omtl5h9j1#

据我所知。
如果一个Map器失败,sqoop进程将尝试杀死另一个Map器。进程不会从hdfs中删除数据。您可以看到一些数据是在您的hdfs位置创建的。
当我们指定Map器的数量(使用-mx选项)时,程序将最多使用x个Map器。

相关问题