根据pig中的字段比较元组

a64a0gku 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(438)

(ABC,****,tool1,12)
(ABC,****,tool1,10)
(ABC,****,tool1,13)
(ABC,****,tool2,101)
(ABC,****,tool3,11)

以上是输入数据
以下是我在pig中的数据集。
架构为：用户名、ip、工具、持续时间
我想添加相同工具的持续时间
输出

(ABC,****,tool1,35)
(ABC,****,tool2,101)
(ABC,****,tool3,11

hadoop apache-pig

来源：https://stackoverflow.com/questions/38831861/compare-tuples-on-basis-of-a-field-in-pig

1条答案

按热度按时间

odopli941#

在持续时间上使用group by和sum。

A = LOAD 'data.csv' USING PigStorage(',') AS (Username:chararray,ip:chararray,tool:chararray,duration:int);
B = GROUP A BY (Username,ip,tool);
C = FOREACH B GENERATE FLATTEN(group) AS (Username,ip,tool),SUM(A.duration);
DUMP C;

赞(0）回复(0）举报 2021-05-30

我来回答

根据pig中的字段比较元组

1条答案

相关问题

热门标签

最新问答