我有很多小的(150-300 kb)文本文件9000每小时,我需要处理它们通过Map减少。我创建了一个简单的mr,它将处理所有文件并创建单个输出文件。当我为1小时的数据运行这个作业时,花了45分钟。我开始挖掘性能差的原因,我发现它需要与文件数一样多的输入分割。我猜这是表现不佳的一个原因。有没有办法控制输入分割,我可以说1000个文件将由一个输入分割/Map处理。
4bbkushb1#
hadoop是为小数量的大文件而设计的,而不是相反。有一些方法可以绕过它,比如预处理数据,使用combinefileinputformat。
1条答案
按热度按时间4bbkushb1#
hadoop是为小数量的大文件而设计的,而不是相反。有一些方法可以绕过它,比如预处理数据,使用combinefileinputformat。