我们有如下oracle存储过程:(psuedo代码)创建storedprocedure(参数)开始选择状态;调用游标,然后插入到另一个表中;调用其他存储过程;结束;我们有许多像上面这样的存储过程。我们的数据增长了,存储过程运行缓慢。我们希望将这些存储过程转换为hive或其他hadoop生态系统。请建议我们哪个是hadoop生态系统支持这个场景。
b1payxdu1#
答案实际上取决于整个情况:数据库中存储了什么,它如何到达那里,存储过程在做什么,以及如何访问结果。我不认为你能把这么大的问题变成可以在stackoverflow上回答的格式。为了回答这个特定的问题,您似乎正在使用存储过程进行etl。在hadoop中有许多等价物,最著名的是:纯Mapreduce、pig/hive脚本和spark。不过,它们不能处理数据库中的数据,因此需要先将数据导入hadoop。如果您使用游标和插入来处理数据,这可能就是您的过程运行缓慢的原因。你是否考虑过聘请一位顾问,他可以提出一些方法来优化你的处理过程,而不必从头开始在hadoop上重写一切?
1条答案
按热度按时间b1payxdu1#
答案实际上取决于整个情况:数据库中存储了什么,它如何到达那里,存储过程在做什么,以及如何访问结果。我不认为你能把这么大的问题变成可以在stackoverflow上回答的格式。
为了回答这个特定的问题,您似乎正在使用存储过程进行etl。在hadoop中有许多等价物,最著名的是:纯Mapreduce、pig/hive脚本和spark。不过,它们不能处理数据库中的数据,因此需要先将数据导入hadoop。
如果您使用游标和插入来处理数据,这可能就是您的过程运行缓慢的原因。你是否考虑过聘请一位顾问,他可以提出一些方法来优化你的处理过程,而不必从头开始在hadoop上重写一切?