我需要匿名gbs的数据组成的数千个文件。这样做通常需要很长时间;因此,我计划在服务器上使用已经安装的伪分布式hadoop集群。对于每个文件中的每个记录,需要对两列进行匿名化,这些匿名化列将存储在哈希Map中。理想情况下,我希望有一个mapper示例来处理每个文件并生成相应的匿名输出文件。此外,Map程序应该将匿名列作为键值对,缩减器将这些键值对聚合到单个文件中。上述过程是否可以在hadoop框架中实现?如果没有,有没有更好的办法?任何帮助或建议都将不胜感激。谢谢。
sycxhyv71#
查看多个输出。它允许您为Map器或缩减器的输出定义多个文件名。至于匿名化,只需确保您想要的文件名是匿名的,并且Map器输出匿名密钥。 context.write(anonymized(key), value);
context.write(anonymized(key), value);
1条答案
按热度按时间sycxhyv71#
查看多个输出。它允许您为Map器或缩减器的输出定义多个文件名。
至于匿名化,只需确保您想要的文件名是匿名的,并且Map器输出匿名密钥。
context.write(anonymized(key), value);