我有一个1字节的数据存储在oracle中,我想把这些数据放在hadoop中。什么是可取的方法?使用sqoop明智吗?如果没有,那么应该使用什么方法或工具来进行这种批量装载
voj3qocg1#
sqoop确实支持可以用作
sqoop import --connnect <connect-str> --table foo --direct --target-dir /dest --direct flag controls the bulk behaviour
但是,对于您的用例,您可以使用--增量导入以增量方式加载那个巨大的表快速查看sqoop用户指南可以让您运行http://sqoop.apache.org/docs/1.4.4/sqoopuserguide.html
ee7vknir2#
sqoop是一个很好的选择,尽管我不确定它是否支持oracle的批量操作(相对于jdbcselectquery)。问题是,sqoop将尝试将此作为单个操作来执行(尽管可能有多个进程),并且对于如此多的数据,您可能希望执行更零碎和容错的导入。你打算以后怎么处理这些数据?您想用什么格式存储数据?sqoop还有其他优点,比如直接导入配置单元表。
2条答案
按热度按时间voj3qocg1#
sqoop确实支持可以用作
但是,对于您的用例,您可以使用--增量导入以增量方式加载那个巨大的表
快速查看sqoop用户指南可以让您运行
http://sqoop.apache.org/docs/1.4.4/sqoopuserguide.html
ee7vknir2#
sqoop是一个很好的选择,尽管我不确定它是否支持oracle的批量操作(相对于jdbcselectquery)。
问题是,sqoop将尝试将此作为单个操作来执行(尽管可能有多个进程),并且对于如此多的数据,您可能希望执行更零碎和容错的导入。
你打算以后怎么处理这些数据?您想用什么格式存储数据?sqoop还有其他优点,比如直接导入配置单元表。