hadoop和amazonemr/s3中每个文件的单独输出

rfbsl7qr 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(422)

我在做一个项目，用hadoop分析书中的单词。我有一个类似于标准字数计算示例的程序（参见这里）。程序当前统计目录中所有文件中的所有字，并将它们组合在一起。但是，我还需要为处理的每个文件获取字数和单个输出，或者至少可以获得每个文件的字数。我该怎么做？

hadoop amazon-emr amazon-s3 amazon-web-services hadoop-streaming

来源：https://stackoverflow.com/questions/23172785/separate-output-per-file-in-hadoop-and-amazon-emr-s3

1条答案

按热度按时间

s71maibg1#

看来你在找 MultipleOutputFormat 这里有alerady impimplementation代码link1，这里有完整的解释和示例代码link2。只需将outputfileMap为输入文件名或任何您想要的文件，文件将得到“/outputfolder/part-nnnnn”，对于每个组，名称“part”可以更改，其中nnnnn是与reduce任务关联的分区id。这是无法回避的，你必须在hdfs上重命名/合并这些文件。

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop和amazonemr/s3中每个文件的单独输出

1条答案

相关问题

热门标签

最新问答