hadoop和amazonemr/s3中每个文件的单独输出

rfbsl7qr  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(422)

我在做一个项目,用hadoop分析书中的单词。我有一个类似于标准字数计算示例的程序(参见这里)。程序当前统计目录中所有文件中的所有字,并将它们组合在一起。但是,我还需要为处理的每个文件获取字数和单个输出,或者至少可以获得每个文件的字数。我该怎么做?

s71maibg

s71maibg1#

看来你在找 MultipleOutputFormat 这里有alerady impimplementation代码link1,这里有完整的解释和示例代码link2。只需将outputfileMap为输入文件名或任何您想要的文件,文件将得到“/outputfolder/part-nnnnn”,对于每个组,名称“part”可以更改,其中nnnnn是与reduce任务关联的分区id。这是无法回避的,你必须在hdfs上重命名/合并这些文件。

相关问题