在hadoop中逐章计算文本文件的字数

uubf1zoe 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(267)

我已经成功地在hadoop中执行了单词计数。现在我想用文本文件或pdf重复同样的过程。我想按章节数数单词。我该怎么办？

1条答案

在mapreduce中，关键是如何构造密钥。
在wordcount中，Map阶段中的每个单词都被计算为1，在reducer中，您将获得整个处理文件中出现的单词的聚合。
字数示例：

Map Phase:
<Key , val>
in, 1
at, 1
in, 1

Reducer Phase:
in, 2
at, 1

要划分为一个或多个级别（章节），只需构造复合键。
wordcount w章节示例：

Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

二次排序是实现相同但增加复杂性的更好、更干净的方法。hadoopMap减少二次排序