我刚开始用pig编写一些脚本,我正在尝试对int列求和,我的脚本如下所示:
DATA = LOAD 'SomeFile' as (fingerPrint, size, str1, str2);
groupedChunks = GROUP DATA BY fingerPrint;
uniqueChunks = FILTER groupedChunks BY COUNT(DATA)==1;
sizes = FOREACH uniqueChunks GENERATE MAX($.size) as size;
现在我有一个表,只有一列,即size列,如果我调用descripe,它将生成以下输出: sizes:{size: int}
在这一步中我需要帮助,我如何得到这个列所有大小的总和?
2条答案
按热度按时间raogr8fs1#
v=全部分组数据;结果=foreach v generate sum(data.size)
nwwlzxa72#
你能试试这个吗?
更新:完整代码
输入文件
Pig手稿:
输出: