max(count)函数

cld4siwp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(480)

下面这个程序我正试图用apachepig原样和非结构化数据来实现
i) 我有一个包含街道名称、城市和州的数据集:
ii)按州分组
iii)我正在对数据集中的状态进行计数(*),现在我的o/p将类似于statename,count==>该状态在数据集中的可用时间是多少
课程:

realestate = LOAD DATA using pigstorage(',') as (street:string,city string,state string);

A = GROUP realestate by state;
B= FOREACH A GENERATE group , count (*)

o/p将是
加利福尼亚州,14华盛顿,20
现在我需要最大的(计数)我的输出应该是“华盛顿,20)
如何进行。请帮我解决这个问题

mkshixfv

mkshixfv1#

应用 ORDER 以及 LIMIT 在生成的结果上

realestate = LOAD DATA using pigstorage(',') as (street:string,city string,state string);
A = GROUP realestate by state;
B = FOREACH A GENERATE group , COUNT(realestate) as c;

# Arrange the tuples based on the count in descending order

D = order B by c desc;

# Apply limit on the ordered result to get the Max value

E = LIMIT D 1;

相关问题