我使用amazonemr,由于它的工作方式(并行),我的输出被分割成多个文件。但我想有一个文件,而不是与正确的顺序,有可能这样做吗?我在减速机里的最后一行是这样的
for key, value in doc_dict.iteritems(): print key for k, v in value.iteritems(): print k,v
这让我抓狂,我不能呈现结果,因为它们是混淆的。
yzxexxkh1#
必须运行脚本才能合并零件文件
hadoop fs -getmerge /output/dir/on/hdfs/ /desired/local/output/file.txt
或者你可以把它们写进一个外部数据库在你的还原器里,然后把你的结果从中剥离出来。在我做的一个项目中,我发现hbase对此非常有用
1条答案
按热度按时间yzxexxkh1#
必须运行脚本才能合并零件文件
或者你可以把它们写进一个外部数据库在你的还原器里,然后把你的结果从中剥离出来。在我做的一个项目中,我发现hbase对此非常有用