mesos master:关闭fd=25失败:传输终结点未连接[107]

p8ekf7hl  于 2021-06-21  发布在  Mesos
关注(0)|答案(3)|浏览(311)

当我在quorum=2的情况下运行3个mesos master时,它们在当选为领导者1分钟后失败,并给出错误:

E1015 11:50:35.539562 19150 socket.hpp:174] Shutdown failed on fd=25: Transport endpoint is not connected [107]

E1015 11:50:35.539897 19150 socket.hpp:174] Shutdown failed on fd=24: Transport endpoint is not connected [107]

他们不断地循环选举,不断地失败和重新选举。
如果我将quorum设置为1,那么一切都正常。为什么会这样?

lztngnrs

lztngnrs1#

昨天我们遇到了一个类似的问题,marathon有点奇怪,因为有些应用程序没有部署。奇怪的是,应用程序启动了,但健康检查从来没有变为绿色,所以nixy没有更新nginx。
经过大量调查,我们得出了同样的错误:

E0718 18:51:05.836688  5049 socket.hpp:107] Shutdown failed on fd=46: Transport endpoint is not connected [107]

最后我们发现问题出在选举中,即使我们的法定人数=1(我们有两个主人),不知何故它失去了自己,一个主人没有与另一个主人沟通。
为了解决这个问题,我们使用marathonapi/v2/leader delete方法触发了一次新的选举,之后一切正常。

hmtdttj4

hmtdttj42#

一个问题是,aws防火墙阻止了服务器的公共ip,zookeeper正在广播公共ip(设置在advertise\u ip中),因此没有人能够相互连接。从属服务器也无法连接到具有相同错误的主服务器。
当我将本地ip设置为播发\u ip(以便zookeeper广播本地ip)时,主机可以通信,quorum=2工作。当我删除防火墙规则时,从机可以连接到主机。

vjrehmav

vjrehmav3#

我们遇到了同样的问题,mesos主日志充斥着如下消息:
mesos master[27499]:e0616 14:29:39.310302 27523插座。hpp:174]关闭fd=67失败:传输终结点未连接[107]
原来是loadbalancers对/stats.json的健康检查

相关问题