我最近配置了10个节点的hdp hadoop集群,每个节点都是os sles11。。
在主节点上,我已经配置了所有的主服务和客户端,还有mabari服务器。其余节点包括其他从属服务及其客户端。
ntp同步开启,其他先决条件也可以。
我在hadoop集群上遇到了奇怪的行为,在几个小时内启动了所有服务之后,其中一个节点出现故障。
当我第一次体验到这一点时,我重新启动了那个特定的节点并将其添加回集群。现在我的主节点引起了同样的问题,因为整个集群都关闭了。我检查了日志,但没有与故障相关的迹象。我不知道hadoop集群中节点失败的根本原因是什么?
下面是日志:-发生故障的系统:/var/log/messages
它们是/var/log/messages:notice)=0',processed='source(src)=6830'apr 23 05:22:43 lnx1863 suefirewall 2:suefirewall 2 not active apr 23 05:23:49 lnx1863 suefirewall 2:suefirewall 2 not active apr 23 05:24:17 lnx1863 sudo:root:tty=pts/0;pwd=/;用户=根;command=/usr/bin/du-h/apr 23 05:24:55 lnx1863 susefirewall2:susefirewall2未激活apr 23 05:25:22 lnx1863内核:[248531.127254]megasas:发现固件处于故障状态,将重置适配器。4月23日05:25:22 lnx1863内核:[248531.127260]megaraid\u sas:正在重置fusion适配器。4月23日05:25:22 lnx1863内核:[248531.127427]megaraid\u sas:不支持重置,正在终止适配器。
名称节点logs:-
info 2015-04-23 05:27:43665 heartbeat.py:78-生成heartbeat:{responseid=7607,timestamp=1429781263665,commandsinprogress=false,componentsmapped=true}info 2015-04-23 05:28:44053 security.py:135-遇到通信错误。详细信息:sslerror('读取操作超时',)错误2015-04-23 05:28:44053控制器。py:278-连接到http://localhost was 丢失(详细信息=请求https://localhost:8441/agent/v1/heartbeat/localhostip由于连接到服务器时出错而失败:读取操作超时)info 2015-04-23 05:29:16,061 netutil.py:48-连接到https://localhost:8440/connection\u info info 2015-04-23 05:29:16118 security.py:93-正在调用ssl连接。。连接到服务器
暂无答案!
目前还没有任何答案,快来回答吧!