在我的组织里,我们试图用Hive或Pig作为替代品
主要目标:减少处理时间
netezza处理时间:90分钟
期待结束过程:30分钟内
流程如何工作:
进程将要维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录,new\u table有更新的记录。因此每天更新的记录都会添加到history table。进程有非常复杂的存储过程(join/deletion/insert/update)
在多个表上应用相同的过程。每个历史记录表都有几十亿条记录。
我有疑问:
Hive/Pig的表现比netezza好吗?
当我想为多个表创建泛型进程(在这里我可以传递表名作为参数)时,hive中的udf是存储过程的一个很好的替代方案吗?
对于具有多个条件、动态生成create语句和异常处理的真正复杂的联接,哪一个hive或pig的性能更好?
1条答案
按热度按时间vuv7lop31#
在hadoop上使用impala,它是netezza,使用kudu进行实时和批处理,或者使用hbase进行实时和批处理,但是可以使用impala查询hbase