我已经成功地在hadoop中执行了单词计数。现在我想用文本文件或pdf重复同样的过程。我想按章节数数单词。我该怎么办?
rqqzpn5f1#
在mapreduce中,关键是如何构造密钥。在wordcount中,Map阶段中的每个单词都被计算为1,在reducer中,您将获得整个处理文件中出现的单词的聚合。字数示例:
Map Phase: <Key , val> in, 1 at, 1 in, 1 Reducer Phase: in, 2 at, 1
要划分为一个或多个级别(章节),只需构造复合键。wordcount w章节示例:
Map Phase: <Key , val> chapter1-in, 1 chapter1-at, 1 chapter2-in, 1 Reducer Phase: chapter1-in, 1 chapter1-at, 1 chapter2-in, 1
二次排序是实现相同但增加复杂性的更好、更干净的方法。hadoopMap减少二次排序
1条答案
按热度按时间rqqzpn5f1#
在mapreduce中,关键是如何构造密钥。
在wordcount中,Map阶段中的每个单词都被计算为1,在reducer中,您将获得整个处理文件中出现的单词的聚合。
字数示例:
要划分为一个或多个级别(章节),只需构造复合键。
wordcount w章节示例:
二次排序是实现相同但增加复杂性的更好、更干净的方法。hadoopMap减少二次排序