从rdbms批量导入到hadoop

okxuctiv  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(331)

我有一个1字节的数据存储在oracle中,我想把这些数据放在hadoop中。什么是可取的方法?使用sqoop明智吗?如果没有,那么应该使用什么方法或工具来进行这种批量装载

voj3qocg

voj3qocg1#

sqoop确实支持可以用作

sqoop import --connnect <connect-str> --table foo --direct --target-dir /dest

  --direct flag controls the bulk behaviour

但是,对于您的用例,您可以使用--增量导入以增量方式加载那个巨大的表
快速查看sqoop用户指南可以让您运行
http://sqoop.apache.org/docs/1.4.4/sqoopuserguide.html

ee7vknir

ee7vknir2#

sqoop是一个很好的选择,尽管我不确定它是否支持oracle的批量操作(相对于jdbcselectquery)。
问题是,sqoop将尝试将此作为单个操作来执行(尽管可能有多个进程),并且对于如此多的数据,您可能希望执行更零碎和容错的导入。
你打算以后怎么处理这些数据?您想用什么格式存储数据?sqoop还有其他优点,比如直接导入配置单元表。

相关问题