在hadoop中组合两个不同的文件

0pizxfdo  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(304)

我在hadoop中遇到了一个非常具体的问题。
我有两个文件userlist和raw\u data。现在,原始数据是一个相当大的文件,userlist相对来说比另一个文件小。
我必须首先确定Map者的数量,我的用户列表必须分解成与Map者数量相等的部分。之后,它必须被加载到分布式缓存中,并与userlist进行比较,执行一些分析,然后将其写入reducer。
请建议。
谢谢您。

p4tfgftt

p4tfgftt1#

我不明白你为什么要分区userlist文件。如果它很小,则将整个userlist文件加载到分布式缓存中。然后在map类的setup方法中,每个mapper都可以访问整个userlist文件。此外,您可以找出Map器的数量,并在setup方法中按您的喜好对其进行分区。

相关问题