在hadoop中组合两个不同的文件

0pizxfdo 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(303)

我在hadoop中遇到了一个非常具体的问题。
我有两个文件userlist和raw\u data。现在，原始数据是一个相当大的文件，userlist相对来说比另一个文件小。
我必须首先确定Map者的数量，我的用户列表必须分解成与Map者数量相等的部分。之后，它必须被加载到分布式缓存中，并与userlist进行比较，执行一些分析，然后将其写入reducer。
请建议。
谢谢您。

hadoop distributed-cache Mapper

来源：https://stackoverflow.com/questions/21799249/combining-two-different-files-in-hadoop

1条答案

按热度按时间

我不明白你为什么要分区userlist文件。如果它很小，则将整个userlist文件加载到分布式缓存中。然后在map类的setup方法中，每个mapper都可以访问整个userlist文件。此外，您可以找出Map器的数量，并在setup方法中按您的喜好对其进行分区。

赞(0）回复(0）举报 2021-06-03

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前