有没有任何方法可以控制MapReduce中的inputsplit

epggiuax 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(444)

我有很多小的（150-300 kb）文本文件9000每小时，我需要处理它们通过Map减少。我创建了一个简单的mr，它将处理所有文件并创建单个输出文件。当我为1小时的数据运行这个作业时，花了45分钟。我开始挖掘性能差的原因，我发现它需要与文件数一样多的输入分割。我猜这是表现不佳的一个原因。
有没有办法控制输入分割，我可以说1000个文件将由一个输入分割/Map处理。

hadoop mapreduce Map

来源：https://stackoverflow.com/questions/21594640/is-there-any-way-to-control-inputsplit-in-map-reduce