HadoopMapReduce:是否可以将Map器输出写入单独的输出文件(而不是中间文件),而不将还原器的数量设置为零?

xbp102n0  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(296)

我需要匿名gbs的数据组成的数千个文件。这样做通常需要很长时间;因此,我计划在服务器上使用已经安装的伪分布式hadoop集群。
对于每个文件中的每个记录,需要对两列进行匿名化,这些匿名化列将存储在哈希Map中。
理想情况下,我希望有一个mapper示例来处理每个文件并生成相应的匿名输出文件。此外,Map程序应该将匿名列作为键值对,缩减器将这些键值对聚合到单个文件中。
上述过程是否可以在hadoop框架中实现?如果没有,有没有更好的办法?任何帮助或建议都将不胜感激。谢谢。

sycxhyv7

sycxhyv71#

查看多个输出。它允许您为Map器或缩减器的输出定义多个文件名。
至于匿名化,只需确保您想要的文件名是匿名的,并且Map器输出匿名密钥。 context.write(anonymized(key), value);

相关问题