hadoop filenotfoundexception job.split上的级联2.0.0作业失败

68de4m5k  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(286)

当我在一个更大的数据集上运行我的作业时,许多Map器/还原器失败,导致整个作业崩溃。以下是我在许多Map器上看到的错误:

java.io.FileNotFoundException: File does not exist: /mnt/var/lib/hadoop/tmp/mapred/staging/hadoop/.staging/job_201405050818_0001/job.split
  at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1933)
  at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.<init>(DFSClient.java:1924)
  at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:608)
  at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:154)
  at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:429)
  at org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:385)
  at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:417)
  at org.apache.hadoop.mapred.MapTask.run(MapTask.java:377)
  at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
  at java.security.AccessController.doPrivileged(Native Method)
  at javax.security.auth.Subject.doAs(Subject.java:415)
  at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1132)
  at org.apache.hadoop.mapred.Child.main(Child.java:249)

有人能解决这个问题吗?我看到另一个人正在经历和我一样的痛苦(这里),遗憾的是他不能及时获救。

gjmwrych

gjmwrych1#

经过几个小时的调试,我发现hadoop日志中没有任何有用的东西(和往常一样)。然后我尝试了以下更改:
将群集大小增加到10
提高失效极限:
mapred.map.max.attempts=20次
mapred.reduce.max.attempts=20
mapred.max.tracker.failures=20
mapred.max.map.failures.percent=20
mapred.max.reduce.failures.percent=20
随后,我能够在大量数据上运行级联作业。这似乎是由级联引起的问题。

相关问题