使用hadoop multipleoutputs时如何去掉后缀“-r-00”?

dphi5xsq  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(223)

先生的工作

FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
MultipleOutputs.addNamedOutput(job, OUTPUT, TextOutputFormat.class, NullWritable.class, Text.class);

在我的减速机里

String myKey = "key"+i;
mos.write(OUTPUT, NullWritable.get(), new Text(lin), myKey);

实际输出文件:

key10-r-00001.gz
key10-r-00002.gz
key11-r-00000.gz
key11-r-00006.gz
key19-r-00000.gz

但我期待的是:

key10.gz
key11.gz
key19.gz

我是否需要使用shell脚本来重命名和合并实际的输出文件?或者有没有其他的解决办法,我可以尝试在没有任何额外步骤的工作先生?谢谢您!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题