在hadoop中同步多个map reduce作业

cotxawn7  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(367)

我有一个可以同时运行多个作业的用例。所有作业的输出都必须与hdfs中没有重复项的公共主文件(包含键值对)合并。我不知道如何避免这种情况下可能出现的赛况。例如,作业1和作业2同时向主文件写入相同的值,从而导致重复。感谢你在这方面的帮助。

anauzrmj

anauzrmj1#

apachehadoop不支持对同一文件进行并行写入。这是参考资料。
hdfs中的文件只写一次,并且在任何时候都严格地只有一个writer。
因此,多个Map/作业不能同时写入同一个文件。为了合并多个作业的输出,必须编写另一个作业/shell或任何其他程序。

相关问题