我有一个可以同时运行多个作业的用例。所有作业的输出都必须与hdfs中没有重复项的公共主文件(包含键值对)合并。我不知道如何避免这种情况下可能出现的赛况。例如,作业1和作业2同时向主文件写入相同的值,从而导致重复。感谢你在这方面的帮助。
anauzrmj1#
apachehadoop不支持对同一文件进行并行写入。这是参考资料。hdfs中的文件只写一次,并且在任何时候都严格地只有一个writer。因此,多个Map/作业不能同时写入同一个文件。为了合并多个作业的输出,必须编写另一个作业/shell或任何其他程序。
1条答案
按热度按时间anauzrmj1#
apachehadoop不支持对同一文件进行并行写入。这是参考资料。
hdfs中的文件只写一次,并且在任何时候都严格地只有一个writer。
因此,多个Map/作业不能同时写入同一个文件。为了合并多个作业的输出,必须编写另一个作业/shell或任何其他程序。