pig对列求和,直到它达到某个值并返回行

2izufjch  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(298)

有人能帮我计算一列的和直到它达到某个值吗。用例:产生50%收入的顶级产品。
有没有像piggybank这样的图书馆来完成它,我在piggybank里找不到。
我正试图实现自定义项,但我担心的是,唯一的办法是:(。

数据结构如下-

productid、totalprofitbyproduct、totalprofitbycompany、totalrevenueofcompany。
数据在totalprofitbyproduct上按降序排列。totalprofitbycompany、totalrevenuefcompany对于每一行都保持不变。
现在,我想对上面的每一个产品应用totalprofitbyproduct的总和,得到产生超过totalprofitbycompany或totalrevenuefcompany的50%的顶级产品

mhd8tkvw

mhd8tkvw1#

piggybank有百分位自定义项,可用于您的需求。
pig脚本和udf可以帮助您实现它。

相关问题