我对hadoop和mapreduce编程相当陌生。我想知道两个文件合并后是否可以按另一个值(不是键)分组。
我有两个文件有以下数据
文件1
name marks
A Male
B Male
C Female
文件2
name marks
A 25
B 28
A 30
C 22
现在有没有办法找出每个性别的分数百分比。我试图得到以下输出
Male percentage_of_marks_of_male_students
Female percentage_of_marks_of_female_students
不管怎样,在一份工作中就可以做到这一点。我试过用两份工作来做这件事,但没有任何进展。
任何提示都将不胜感激。
编辑:
加入档案后我得到了这样的东西
{name1 - ["gender","marks1","marks2",...]}
{name2 - ["gender","marks1","marks2",...]}
{name3 - ["gender","marks1","marks2",...]}
...
我现在只能在减缩阶段分别找出男性和女性的分数总和
编辑:
我已经解决了这个问题。我用了两份工作。第一个作业连接两个文件,输出为
[gender, the sum of marks of each student]
我将输出文件作为输入发送到第二个job,该job按性别给出分数百分比。
暂无答案!
目前还没有任何答案,快来回答吧!