我是hadoop和MapReduce编程的新手。我有一个数据集,它包含了943个用户对电影的评价。每个用户最多可以为20部电影评分。现在,我希望Map器的输出是用户id和一个自定义类,该类将有两个电影列表(用户分级的电影id)和分级(每个电影的分级)。但我不确定在这种情况下如何从map方法输出这些值。代码段below:-
public class UserRatings implements WritableComparable{
private List<String> movieId;
private List<String> movieRatings;
public List<String> getMovieRatings() {
return movieRatings;
}
public void setMovieRatings(List<String> movieRatings) {
this.movieRatings = movieRatings;
}
public List<String> getMovieId() {
return movieId;
}
public void setMovieId(List<String> movieId) {
this.movieId = movieId;
}
@Override
public int compareTo(Object o) {
return 0;
}
@Override
public void write(DataOutput dataOutput) throws IOException {
dataOutput.write
}
@Override
public void readFields(DataInput dataInput) throws IOException {
}
}
这里是map方法
public class GenreMapper extends Mapper<LongWritable,Text,Text,IntWritable> {
public void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException{
// Logic for parsing the file and exracting the data. Can be ignored...
String[] input = value.toString().split("\t");
Map<String,UserRatings> mapData = new HashMap<String,UserRatings>();
for(int i=0;i<input.length;i++){
List<String> tempList = new ArrayList<String>();
UserRatings userRatings = new UserRatings();
tempList.add(input[3]);
List<String> tempMovieId = new ArrayList<String>();
tempMovieId.add(input[1]);
for(int j=4;j<input.length;j++){
if(input[i].contentEquals(input[j])){
tempMovieId.add(input[j+1]);
tempList.add(input[j+3]);
j = j+4;
}
}
userRatings.setMovieId(tempMovieId);
userRatings.setMovieRatings(tempList);
mapData.put(input[i],userRatings);
}
// context.write();
}
}
2条答案
按热度按时间r3i60tvu1#
您可以考虑使用text和mapwritable作为mapper类的键值对。
在这里,用户id将是键(文本),而mapwritable由电影id和用户的等级组成,我们将它作为value对象。
mapwritable值对象应该由movieid作为键,user rating作为值组成。
考虑一下这个示例代码片段,
希望这有帮助:)。。
kwvwclae2#
我认为你没有理解Map器函数的要点。Map器不应在其输出上发出列表。Map器的关键是生成一个元组,还原器将捕获该元组,并对该元组进行必要的计算以生成良好的输出,因此Map器的输出格式应尽可能简单。
在这种情况下,我认为正确的方法是在Map器上发出一个键值对:
用户\u id,自定义\u类
自定义类必须只有电影id和分级,而不是列表。更具体地说,我需要知道你想要这个Map的最终结果是什么。请注意,如果您需要,可以运行第二个map reduce对第一个map的结果。