r-00000和part-m-00000文件有什么区别?

siotufzp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(1040)

我们在使用运行centos的hadoop my virtual box时使用bigdata。当我们执行某些程序时,它会创建两个不同的文件1)part-r-00000和2)part-m-00000。那么这两个文件的区别和用途是什么呢?

lmvvr0a8

lmvvr0a81#

输出文件默认命名为 part-x-yyyyy 哪里:

  1. x 或者 ‘m’ 或者 ‘r ,这取决于该作业是仅Map作业还是缩小
  2. yyyyy 是Map器,或reducer任务号(基于零) (00000 ))
    因此,如果一个作业有10个减速器,则生成的文件将命名为 part-r-0000 0到 part-r-0000 9,每个任务一个。
    可以更改默认名称。
    要更改输出文件的默认值,您只需在driver类中执行以下操作: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”) ;
    所以这会导致你的文件被调用 “Neo-r-00000” .
mctunoxg

mctunoxg2#

这些是mapreduce作业生成的文件。 r 意味着这个文件已经被一个减速机输出了, m 表示文件已由Map器输出。

相关问题