所以我在写一个mr作业,从一个输入文件夹中读取数百个文件。因为所有的文件都是压缩的,所以我没有使用默认的textinputformat,而是使用来自在线代码源的wholefilereadformat。
所以我的问题是Map程序是否按顺序处理多个输入文件?我的意思是,如果我有三个文件,既然我把整个文件的内容作为map输入值来读取,那么mapreduce会按照a->b->c的顺序来处理这些文件吗?也就是说,只有在处理完a之后,mapper才会开始处理b?
实际上,我对Map作业和Map任务的概念有点困惑。在我的理解中,Map工作和mapper是一样的。一个mapper作业包含多个map任务,在我的例子中,每个map任务将在一个文件中读取。但我不明白的是,我认为map任务是并行执行的,所以我认为所有的输入文件都应该并行处理,这是一个悖论。。。。
谁能给我解释一下吗?
暂无答案!
目前还没有任何答案,快来回答吧!