如何防止hadoop由于reduce任务失败而导致作业失败

nbnkbykc 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(503)

我在跑步 s3distcp 工作地点 AWS EMR hadoop 2.2.0 版本。而作业keep在尝试了3次之后失败了，因为reducer任务失败。我也试过两种方法：

mapred.max.reduce.failures.percent
mapreduce.reduce.failures.maxpercent

到了50岁 hadoop 动作配置和 mapred-site.xml . 但工作还是失败了。
下面是日志：
2015-10-02 14:42:16001 info[main]org.apache.hadoop.mapreduce.job:任务id:尝试\u 1443541526464 \u 0115 \u r\u 000010 \u 2，状态：失败2015-10-02 14:42:17005 info[main]org.apache.hadoop.mapreduce.job:Map100%减少93%2015-10-02 14:42:29048 info[main]org.apache.hadoop.mapreduce.job:Map100%减少98%2015-10-02 15:04:20，369 info[main]org.apache.hadoop.mapreduce.job:map 100%reduce 100%2015-10-02 15:04:21378 info[main]org.apache.hadoop.mapreduce.job:job job_失败，状态为failed，原因是：task failed task_ \u 0115 \u r_jobfailed as tasks failed。failedmaps:0 failedreduces:1
2015-10-02 15:04:21,451 info[main]org.apache.hadoop.mapreduce.job:计数器：45文件系统计数器文件：读取字节数=280文件：写入字节数=10512783文件：读取操作数=0文件：大读取操作数=0文件：写入操作数=0 hdfs:读取字节数=32185011 hdfs:写入字节数=0 hdfs:写入字节数读取操作=170 hdfs：大读取操作数=0 hdfs：写入操作数=28个作业计数器失败reduce tasks=4个启动的map tasks=32个启动的reduce tasks=18个数据本地map tasks=15个机架本地map tasks=17所有map在占用插槽中花费的总时间（ms）=2652786所有reduce在占用插槽中花费的总时间（ms）=65506584map reduce framework map input records=156810 map output records=156810 map output bytes=30892192 map output materialized bytes=6583455 input split bytes=3904 combine input records=0 combine output records=0 reduce input groups=0 reduce shuffle bytes=7168 reduce input records=0 reduce output records=0 spilled records=156810 shuffledfailed shuffles=0 merged map outputs=448 failed shuffles=0 merged map outputs=448 gc time appeased（ms）=2524 cpu time spend（ms）=108250物理内存（字节）snapshot=14838984704虚拟内存（字节）snapshot=106769969152总提交堆使用率（字节）=18048614400 shuffle errors bad \u id=0 connection=0 io \u error=0 wrong \u length=0 wrong \u map=0wrong\u reduce=0 file input format counters bytes read=32181107 file output format counters bytes writed=0 2015-10-02 15:04:21451 info[main]com.amazon.external.elasticmapreduce.s3distcp.s3distcp:尝试递归删除hdfs:/tmp/218ad028-8035-4f97-b113-3cfea04502fc/tempspace 2015-10-02 15:04:21，515 info[main]org.apache.hadoop.io.compress.zlib.zlibfactory:已成功加载并初始化本机zlib库2015-10-02 15:04:21516 info[main]org.apache.hadoop.io.compress.codepool:获得全新的压缩程序[.deflate]2015-10-02 15:04:21，554信息[main]org.apache.hadoop.mapred.task：task:attempt_1443541526464_0114_m_000000_0 完成了。正在提交2015-10-02 15:04:21570 info[main]org.apache.hadoop.mapred.task:任务尝试\u 1443541526464 \u 0114 \u m \u 0000000允许现在提交2015-10-02 15:04:21，584 info[main]org.apache.hadoop.mapreduce.lib.output.fileoutputcommitter:任务'attempt\u 1443541526464\u 0114\u m\u000000\u 0'的保存输出到hdfs://rnd2-emr-head.ec2.int$2015-10-02 15:04:21598 info[main]org.apache.hadoop.mapred.task:任务“尝试\u 1443541526464 \u 0114 \u m \u 0000000”完成。2015-10-02 15:04:21616信息[thread-6]amazon.emr.metrics.metricssaver:inside metricssaver shutdown hook
如有任何建议，将不胜感激。

hadoop mapreduce elastic-map-reduce

来源：https://stackoverflow.com/questions/32910776/how-to-prevent-hadoop-fail-job-due-to-failed-reduce-task