正在storm拓扑中获取与netty客户端相关的错误并重新启动工作进程

bpzcxfmw  于 2021-06-24  发布在  Storm
关注(0)|答案(0)|浏览(201)
Version Info: 
   "org.apache.storm" % "storm-core" % "1.2.1" 
   "org.apache.storm" % "storm-kafka-client" % "1.2.1"

我有一个风暴拓扑与3螺栓(a,b,c),其中中间螺栓需要大约450毫秒的平均时间和其他两个螺栓需要不到1毫秒。
我正在两台计算机上运行具有以下并行性提示值的拓扑:

A: 4 
B: 700
C: 10

拓扑启动几分钟后,出现以下错误:
在工作日志中:
2018-07-04t20:16:28.835+05:30客户端[错误]丢弃7条消息,因为netty客户端到netty客户端-/ip:6700正在关闭
在主管日志中:

2018-07-04 20:16:29.468 o.a.s.d.s.BasicContainer [INFO] Worker Process 32bc11c0-a1d0-4593-a91a-3ff788ea041a exited with code: 20

2018-07-04 20:16:31.592 o.a.s.d.s.Slot [WARN] SLOT 6700: main process has exited

2018-07-04 20:16:31.592 o.a.s.d.s.Container [INFO] Killing 2825cbe9-aedd-4f10-a796-4f9dc30ae72f:32bc11c0-a1d0-4593-a91a-3ff788ea041a

2018-07-04 20:16:31.600 o.a.s.u.Utils [INFO] Error when trying to kill 7422. Process is probably already dead.

2018-07-04 20:16:32.600 o.a.s.d.s.Slot [INFO] STATE RUNNING msInState: 391195 topo:myTopo-1-1530715184 worker:32bc11c0-a1d0-4593-a91a-3ff788ea041a -> KILL_AND_RELAUNCH msInState: 0 topo:myTopo-1-1530715184 worker:32bc11c0-a1d0-4593-a91a-3ff788ea041a

2018-07-04 20:16:32.600 o.a.s.d.s.Container [INFO] GET worker-user for 32bc11c0-a1d0-4593-a91a-3ff788ea041a

我看到这里和这里都有类似的问题,我对此很少有疑问:
为什么会出现这种错误?如何解决?
如何获得更多的调试信息从风暴,我已经设置 conf.setDebug(true) 有没有一些限制/指导方针关于多少平行度因子os ok为一个螺栓连接的n台机器?

编辑:

的日志 strace -fp PID -e trace=read,write,network,signal,ipc 在要点上。一些相关的看部分是当上述事情发生时,但我却看到这样的 SIGSEGV strace输出中的许多地方:

[pid 23635] --- SIGSEGV {si_signo=SIGSEGV, si_code=SEGV_ACCERR, si_addr=0x7f83af6f1180} ---
[pid 23549] <... read resumed> "PK\3\4\n\0\0\0\10\0\364J\336F\222'\202\312\310\2\0\0\16\5\0\0\36\0\0\0", 30) = 30
[pid 23654] --- SIGSEGV {si_signo=SIGSEGV, si_code=SEGV_ACCERR, si_addr=0x7f83af6f1f80} ---
[pid 23549] read(23, "\235TmW\22A\24~\6\224\227u\vE4\255,JR\300WP\322\0245TH\23\313\3j\347"..., 712) = 712
[pid 23654] rt_sigreturn({mask=[QUIT]}) = 140203560738688
[pid 23635] rt_sigreturn({mask=[QUIT]}) = 140203560735104

工作进程的strace输出在这里,相关日志在这里:

[pid 24435] recvfrom(291, "HTTP/1.1 200 OK\r\nContent-Type: a"..., 8192, 0, NULL, NULL) = 544
[pid 23473] write(3, "Heap\n garbage-first heap   total"..., 347) = 347
[pid 24434] +++ exited with 20 +++
[pid 24405] +++ exited with 20 +++
[pid 24435] +++ exited with 20 +++
[pid 24427] +++ exited with 20 +++

编辑2:

还有一个问题:工人日志中的连接被拒绝错误-apachestorm:as par it's answer not setting storm.local.hostname 可能会引起,但已经为我准备好了。
这里还有另一个bug有类似的netty错误,这个问题仍然没有解决。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题