如何将reducer的结果打印到单个文件中

nzkunb0c 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(331)

我使用amazonemr，由于它的工作方式（并行），我的输出被分割成多个文件。
但我想有一个文件，而不是与正确的顺序，有可能这样做吗？
我在减速机里的最后一行是这样的

for key, value in doc_dict.iteritems():
    print key
    for k, v in value.iteritems():
        print k,v

这让我抓狂，我不能呈现结果，因为它们是混淆的。

1条答案

必须运行脚本才能合并零件文件

hadoop fs -getmerge /output/dir/on/hdfs/ /desired/local/output/file.txt

或者你可以把它们写进一个外部数据库在你的还原器里，然后把你的结果从中剥离出来。在我做的一个项目中，我发现hbase对此非常有用