如何用hadoopMap减少整个文件

k5hmc34c 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(313)

我已经讨论过各种streamin map reduce字数示例，其中hadoop/hbase似乎要获取一个大文件，并在节点之间平均地打断它（在换行符处）。然后它将部分文档的每一行提交到代码的map部分。我的问题是，当我有很多小的非结构化和半结构化文档时，如何让hadoop将整个文档提交给我的map代码？

hadoop mapreduce

来源：https://stackoverflow.com/questions/29753519/how-to-hadoop-map-reduce-entire-file

1条答案

按热度按时间

kuarbcqp1#

文件分割由inputformat.getsplits计算。因此，对于每个输入文件，它会获得拆分的数量，并且每个拆分都会提交给Map器。现在基于inputformatMap器将处理输入拆分。
我们有不同类型的输入格式，例如textinputformat，它将文本文件作为输入，对于每个分割，它提供行偏移量作为键，整行作为值到mapper中的map方法。其他输入格式也是如此。
现在如果你有很多小文件，假设每个文件都小于块大小。然后每个文件将被提供给不同的Map器。如果文件大小超过块大小，那么它将被分为两个块并在两个块上执行。
考虑一个例子，其中每个输入文件都是1mb，并且您有64个这样的文件。还假设块大小为64mb。
现在，每个文件将有64个Map器启动。
假设你有100 mb的文件，你有两个这样的文件。
现在你的100MB文件将被分割成64mb+36mb，4个Map器将被启动。

赞(0）回复(0）举报 2021-05-30

我来回答

如何用hadoopMap减少整个文件

1条答案

相关问题

热门标签

最新问答