在hadoop中逐章计算文本文件的字数

uubf1zoe  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(267)

我已经成功地在hadoop中执行了单词计数。现在我想用文本文件或pdf重复同样的过程。我想按章节数数单词。我该怎么办?

rqqzpn5f

rqqzpn5f1#

在mapreduce中,关键是如何构造密钥。
在wordcount中,Map阶段中的每个单词都被计算为1,在reducer中,您将获得整个处理文件中出现的单词的聚合。
字数示例:

Map Phase:
<Key , val>
in, 1
at, 1
in, 1

Reducer Phase:
in, 2
at, 1

要划分为一个或多个级别(章节),只需构造复合键。
wordcount w章节示例:

Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

二次排序是实现相同但增加复杂性的更好、更干净的方法。hadoopMap减少二次排序

相关问题