生产环境突然出现 all servers are down!,全站502,1分钟后自动恢复了。健康检查也就50个节点而已,设置check_shm_size为50M,keys_zone为200M。挂的时候网络监控都是好的,而且生产环境多个节点tengine同时挂,求思路
68bkxrlz1#
多个节点tengine同时挂,是否考虑,后端真的挂了
mfpqipee2#
现在两三天之后,偶尔有一个节点会挂掉502,立马就会自动恢复,真是有点棘手。生产环境全挂的时候,是2.2.2,可能是http2漏洞导致的
uqzxnwby3#
Does the small tengine2.2.3 check_shm_size setting cause 502!Compared with Tengine-2.1.2 stable version, memory consumption is 10 times higher!
hs1ihplo4#
@MengqiWu 除了抓包之外,有没有其他可以排查途径,经过最近持续观察,几乎持续出现健康检查失败的。健康检查配置一般如下check interval=5000 rise=2 fall=3 timeout=3000 type=http; check_http_send "HEAD /check.htm HTTP/1.0\r\n\r\n"; check_http_expect_alive http_2xx http_3xx;
check interval=5000 rise=2 fall=3 timeout=3000 type=http; check_http_send "HEAD /check.htm HTTP/1.0\r\n\r\n"; check_http_expect_alive http_2xx http_3xx;
间断出现错误日志[error] 4261#0: *495702678 all servers are down! while connecting to upstream
[error] 4261#0: *495702678 all servers are down! while connecting to upstream
是不是攻击导致的?
thigvfpy5#
最近又频繁出现了。版本是2.2.3,tengine显示所有节点down,实际上当时Ping进程正常的,后端服务日志也正常有响应。不知道什么情况,会触发健康检查认为所有节点挂,是内存溢出了,还是什么情况?错误日志也没有。
yb3bgrhw6#
在2.3.1中,这个问题修复了么?@MengqiWu
6条答案
按热度按时间68bkxrlz1#
多个节点tengine同时挂,是否考虑,后端真的挂了
mfpqipee2#
现在两三天之后,偶尔有一个节点会挂掉502,立马就会自动恢复,真是有点棘手。生产环境全挂的时候,是2.2.2,可能是http2漏洞导致的
uqzxnwby3#
Does the small tengine2.2.3 check_shm_size setting cause 502!
Compared with Tengine-2.1.2 stable version, memory consumption is 10 times higher!
hs1ihplo4#
@MengqiWu 除了抓包之外,有没有其他可以排查途径,经过最近持续观察,几乎持续出现健康检查失败的。健康检查配置一般如下
check interval=5000 rise=2 fall=3 timeout=3000 type=http; check_http_send "HEAD /check.htm HTTP/1.0\r\n\r\n"; check_http_expect_alive http_2xx http_3xx;
间断出现错误日志
[error] 4261#0: *495702678 all servers are down! while connecting to upstream
是不是攻击导致的?
thigvfpy5#
最近又频繁出现了。版本是2.2.3,tengine显示所有节点down,实际上当时Ping进程正常的,后端服务日志也正常有响应。不知道什么情况,会触发健康检查认为所有节点挂,是内存溢出了,还是什么情况?错误日志也没有。
yb3bgrhw6#
在2.3.1中,这个问题修复了么?@MengqiWu