将mapreduce程序配置为只在现有程序中运行reducer

camsedfj 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(366)

mapreduce程序是否可以配置为只执行reducer而不执行mapper[即使程序中定义了map函数]。仅通过更改作业配置就可以实现这一点。
我想在mapreduce中实现增量计算（输入为仅附加文件）。例如
对于wordcount，
如果wordcount已经在一个文件上执行，那么在这个文件之后会有更多的数据附加到输入文件中。
如果对更新的输入文件再次执行wordcount，我只想对新数据执行wordcount，并将旧结果与此合并。对于这种输出组合，我想单独执行reducer。

hadoop mapreduce reduce configure

来源：https://stackoverflow.com/questions/25945433/configure-mapreduce-program-to-run-only-reducer-in-existing-program

2条答案

按热度按时间

不，这是不可能的。hadoop要求您 map ，而 reduce 是可选的。
如果你想做一个小组，你可以尝试使用 Apache Tez 并配置一个与您想要归档的内容相同的dag（可能仍然有问题，因为您需要使用内部数据格式）。

赞(0）回复(0）举报 2021-06-03

是的，你可以！，将此代码用作Map器（python\u版本） import sys for i in sys.stdin: print i 这样就可以了，因为Map器是必须的。所以只要用虚拟Map器打印输入的内容就行了
我想这有帮助！

赞(0）回复(0）举报 2021-06-03

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前