使用compositeinputformat

kognpnkq 于 2021-06-04 发布在 Hadoop

关注(0)|答案(2)|浏览(263)

我试图通过hadoop实现一个map-side连接，使用compositeinputformat类。为此，我需要满足以下标准：
每个Map的输入都必须以特定的方式进行分区和排序。每个输入数据集必须被划分为相同数量的分区，并且必须在每个源中按相同的键（join键）排序。私钥的所有记录必须位于同一分区中，这是必需的。
我需要创建一个mapreduce作业并执行它，只是为了满足这个要求？我是否需要创建一个“身份Map器和还原器”来执行此操作？或者用Hive或Pig还有别的方法吗？
谢谢

hadoop Hive mapreduce apache-pig

来源：https://stackoverflow.com/questions/25046838/using-compositeinputformat

2条答案

按热度按时间

假设您为两个输入的预处理设置相同的还原数，那么使用identity mapper/reducer就足够了。默认情况下，它将使用hashpartitioner和writeablecomparator对输入进行排序和处理。

赞(0）回复(0）举报 2021-06-04

只有在两个文件中都有join键作为键时，identity mapper/reducer才能工作。
如果没有，则需要编写一个简单的Map，使join键成为输出的键，并将其传递给identity reducer。

赞(0）回复(0）举报 2021-06-04

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前