我有以下要求。
测试数据具有以下值。
我需要找出每个字符在总数中所占的百分比。
我尝试过下面的查询,但没有成功。
Ex:
W
H
U
U
H
W
U
W
W
H
W
U
H
H
H
U
W
W
W
H
data = LOAD 'location of test data';
grp = GROUP data BY data.$0; // considering only 1 field in this csv.
result = FOREACH grp GENERATE group, COUNT(data.$0)/SUM(data.$0);
因为田地是 chararrays
,我无法计算字段的和。
有没有别的办法?
如果我使用一个group all,后跟count(data.$0),我得到条目的总数。
如果我使用一组字段,后跟count(data.$0),我得到单个count。
这里我需要的是这个个体的百分比。
提前谢谢。
2条答案
按热度按时间fcg9iug31#
你必须手动操作,
像这样的
41zrol4v2#
这里我需要的是这个个体的百分比。
要做到这一点,您需要运行两个清管器操作,我相信-1)首先,正如您所说,在一个关系中获取单个计数
2) 第二,您计算前面提到的一个关系中的所有元素
3) 然后你需要把在第一个和第二个(交叉)中得到的关系交叉,这样你就有了这样一个新的关系
4) 发布这个,你可以计算出你想要的百分比。
更新
下面是我想出的Pig剧本。