有没有任何方法可以控制MapReduce中的inputsplit

epggiuax  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(444)

我有很多小的(150-300 kb)文本文件9000每小时,我需要处理它们通过Map减少。我创建了一个简单的mr,它将处理所有文件并创建单个输出文件。当我为1小时的数据运行这个作业时,花了45分钟。我开始挖掘性能差的原因,我发现它需要与文件数一样多的输入分割。我猜这是表现不佳的一个原因。
有没有办法控制输入分割,我可以说1000个文件将由一个输入分割/Map处理。

4bbkushb

4bbkushb1#

hadoop是为小数量的大文件而设计的,而不是相反。有一些方法可以绕过它,比如预处理数据,使用combinefileinputformat。

相关问题