hadoopmapreduce-两个文件的连接和分组值的计算

j2datikz 于 2021-07-15 发布在 Hadoop

关注(0)|答案(0)|浏览(201)

我对hadoop和mapreduce编程相当陌生。我想知道两个文件合并后是否可以按另一个值（不是键）分组。
我有两个文件有以下数据
文件1

name    marks
A       Male
B       Male
C       Female

文件2

name    marks
A       25
B       28
A       30
C       22

现在有没有办法找出每个性别的分数百分比。我试图得到以下输出

Male    percentage_of_marks_of_male_students
Female  percentage_of_marks_of_female_students

不管怎样，在一份工作中就可以做到这一点。我试过用两份工作来做这件事，但没有任何进展。
任何提示都将不胜感激。
编辑：
加入档案后我得到了这样的东西

{name1 - ["gender","marks1","marks2",...]}
{name2 - ["gender","marks1","marks2",...]}
{name3 - ["gender","marks1","marks2",...]}
...

我现在只能在减缩阶段分别找出男性和女性的分数总和
编辑：
我已经解决了这个问题。我用了两份工作。第一个作业连接两个文件，输出为

[gender, the sum of marks of each student]

我将输出文件作为输入发送到第二个job，该job按性别给出分数百分比。

目前还没有任何答案，快来回答吧！

相关问题