mapreduce作业,它从多个文件中获取输入,并将输出显示为文件的word列表

3pvhb19x  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(254)

我是hadoop的新手,我正在尝试编写一个mr作业,它从多个文件中获取输入,并将输出显示为文件的单词列表,但我无法获取文件名
例如:hadoop[file1,file2,file3]配置单元[file2,file3]

k4emjkb1

k4emjkb11#

这与字数计算程序非常相似。
从Map发射,

Word,Filename

要提取文件名,

String fileName = ((FileSplit) context.getInputSplit()).getPath().getName();

在reduce中,
默认情况下,您将获得每个单词的文件名分组。您可以迭代并执行所需的操作。

相关问题