pig udf对级联内置函数的效率

raogr8fs  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(594)

我对pig脚本很陌生,我有一个要求,我需要在10个条件下执行ladder if else,据我所知,我们只有三元运算符,所以我想写一个udf,而不是像下面这样级联三元运算符:-(条件:statement1?(条件:陈述2?报表3)
数据大小是以千万行为单位的,我是否应该继续努力为我的需求创建一个自定义项呢。?
如果最终导致性能问题,那么付出努力是没有意义的。
据我所知,每一行都会调用udf,而对一百万条记录的递归调用是一项严重的开销。

rur96b6h

rur96b6h1#

我认为,如果您可以访问一个大型集群,那么udf应该不会是一个问题,它可以提高脚本的可读性。最后,您的脚本还被编译成一个java可执行文件。如果您能够在昂贵的操作之前过滤数据,那么性能上的最大优势就是。

相关问题