我在hadoop中遇到了一个非常具体的问题。我有两个文件userlist和raw\u data。现在,原始数据是一个相当大的文件,userlist相对来说比另一个文件小。我必须首先确定Map者的数量,我的用户列表必须分解成与Map者数量相等的部分。之后,它必须被加载到分布式缓存中,并与userlist进行比较,执行一些分析,然后将其写入reducer。请建议。谢谢您。
p4tfgftt1#
我不明白你为什么要分区userlist文件。如果它很小,则将整个userlist文件加载到分布式缓存中。然后在map类的setup方法中,每个mapper都可以访问整个userlist文件。此外,您可以找出Map器的数量,并在setup方法中按您的喜好对其进行分区。
1条答案
按热度按时间p4tfgftt1#
我不明白你为什么要分区userlist文件。如果它很小,则将整个userlist文件加载到分布式缓存中。然后在map类的setup方法中,每个mapper都可以访问整个userlist文件。此外,您可以找出Map器的数量,并在setup方法中按您的喜好对其进行分区。