获取错误太多

wlsrxk51  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(344)

我在ubuntu12.04和hadoop1.2.1上安装了一个2节点hadoop集群。当我尝试运行hadoop字数计算示例时,我得到了 Too many fetch faliure error ". 我参考了许多文章,但我不知道该写些什么 Masters , Slaves 以及 /etc/hosts 文件。我的名字是“ master “与
ip 10.0.0.1 “奴隶一号”和 ip 10.0.0.2 .
我需要帮助在什么应该是主人,奴隶和奴隶的条目 /etc/hosts 两个文件中的文件 master 以及 slave 节点?

rdrgkggo

rdrgkggo1#

如果由于任何原因无法升级群集,可以尝试以下操作:
确保主机名绑定到网络ip,而不是中的127.0.0.1 /etc/hosts 确保仅使用主机名而不是IP来引用服务。
如果上述设置正确,请尝试以下设置:

set mapred.reduce.slowstart.completed.maps=0.80
set tasktracker.http.threads=80
set mapred.reduce.parallel.copies=(>= 10)(10 should probably be sufficient)

还可以看看这篇文章:为什么我每隔一天就会遇到“太多的获取失败”
这个:获取失败太多:集群上的hadoop(x2)
如果上述情况没有帮助:http://grokbase.com/t/hadoop/common-user/098k7y5t4n/how-to-deal-with-too-many-fetch-failures 为了简洁和时间的利益,我把我发现最相关的放在这里。
第一个原因是导致连接获取Map输出失败。我见过:1)防火墙2)错误配置的ip地址(即:尝试获取的任务跟踪器在使用Map段查找任务跟踪器的名称时收到了错误的ip地址)3)很少,服务任务跟踪器上的http服务器由于线程不足或侦听积压而过载,如果每次reduce的获取数很大,reduce的数量或Map的数量非常大,则可能会发生这种情况。
可能还有其他的情况,最近发生在我身上,我在一个10节点的集群上有6000个Map和20个缩减器,我相信这就是上面的情况3。因为我实际上不需要减少(我在map阶段通过计数器获得摘要数据),所以我从未重新调整集群。
编辑:最初的答案是“确保你的主机名绑定到网络ip和127.0.0.1中 /etc/hosts "

相关问题