java—创建大量多个输出

3htmauhk 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(301)

我正在创建大量的输出文件，例如500个。我已经被创建为例外，如下所示。当输出文件数量较少时，程序会自行恢复。例如，如果它有50个文件，尽管发生了此异常，但在多次打印此异常后，程序将成功运行。
但是，对于许多文件，它最终会失败 IOException .
我已经粘贴了错误，然后是下面的代码：

12/10/29 15:47:27 INFO mapred.JobClient: Task Id : attempt_201210231820_0235_r_000004_3, Status : FAILED
    org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /home/users/mlakshm/preopa406/data-r-00004 for DFSClient_attempt_201210231820_0235_r_000004_3 on client 10.0.1.100, because this file is already being created by DFSClient_attempt_201210231820_0235_r_000004_2 on 10.0.1.130
            at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.recoverLeaseInternal(FSNamesystem.java:1406)

我粘贴了代码：
在reduce方法中，我有以下逻辑来生成输出：

int data_hash = (int)data_str.hashCode();
                      int data_int1 = 0;
                      int k = 500;
                      int check1 = 0;
                      for (int l = 10; l>0; l++)
                      {

                       if((data_hash%l==0)&&(check1 == 0))
                       {
                       check1 = 1;
                       int range = (int) k/10;

                       String check = "true";

                      while(range > 0 && check.equals("true"))
                                        {

                                     if(data_hash % range-1 == 0)
                                        {                                                        
                                                check = "false";
                                        data_int1 = range*10;

                                     }
                                        }

                            }

                            }

                               mos.getCollector("/home/users/mlakshm/preopa407/cdata"+data_int1, reporter).collect(new Text(t+" "+alsort.get(0)+" "+alsort.get(1)), new Text(intersection));

                        PLs help!

Java hadoop mapreduce Distributed

来源：https://stackoverflow.com/questions/13128846/creating-a-large-number-of-multiple-outputs

1条答案

按热度按时间

70gysomp1#

问题是所有的reducer都试图用相同的命名方案编写文件。它这么做的原因是

mos.getCollector("/home/users/mlakshm/preopa407/cdata"+data_int1, reporter).collect(new Text(t+" "+alsort.get(0)+" "+alsort.get(1)), new Text(intersection));

set的文件名基于数据的特征，而不是reducer的标识。
你有几个选择：
重做Map作业，以便发出的密钥与在此作业中计算的哈希匹配。这将确保每个减速机都有一个值范围。
在文件名中包含一个标识符，该标识符不属于每个Map器。这将为每个减速器留下一组零件文件。
你能解释一下为什么你在这里使用多个输出吗？我不认为你需要。

赞(0）回复(0）举报 2021-06-03

我来回答

java—创建大量多个输出

1条答案

相关问题

热门标签

最新问答