Please answer some questions before submitting your issue. Thanks!
2.3.0
调度中心应该有一个超时检测机制。(任务里配置的超时设置目前是在执行器端生效的,执行器容器OOM的情况,超时设置没有多大用)
调度中心显示任务一直在进行中
bfnvny8b1#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
mbzjlibv2#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
感谢。因为执行器是容器部署的,OOM之后会马上重启,现在确实是存在这个问题。
bis0qfac3#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
如果想要终止该次任务,可以在页面上手动操作
fnatzsnv4#
我们已经终止了,感谢。后续可能会对job-admin模块进行改造,将超时设置也放到monitor线程中以便于及时对相关丢失任务进行处理。
7hiiyaii5#
您好,我现在也遇到同样的问题,执行回调成功,但是结果一直处于进行中,hanlerCode 一直是0,麻烦问下您是怎么解决这个问题的
9ceoxa926#
6条答案
按热度按时间bfnvny8b1#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中
任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
mbzjlibv2#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
感谢。因为执行器是容器部署的,OOM之后会马上重启,现在确实是存在这个问题。
bis0qfac3#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
感谢。因为执行器是容器部署的,OOM之后会马上重启,现在确实是存在这个问题。
如果想要终止该次任务,可以在页面上手动操作
fnatzsnv4#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
感谢。因为执行器是容器部署的,OOM之后会马上重启,现在确实是存在这个问题。
如果想要终止该次任务,可以在页面上手动操作
我们已经终止了,感谢。后续可能会对job-admin模块进行改造,将超时设置也放到monitor线程中以便于及时对相关丢失任务进行处理。
7hiiyaii5#
调度中心已经启动了一个任务结果丢失处理线程,具体逻辑在JobCompleteHelper中 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本次调度标记失败;
结合你的情况来看,应该是执行器OOM之后,在十分钟之内重启了执行器,所以执行器心跳依然在线,导致该任务一直处于运行中
感谢。因为执行器是容器部署的,OOM之后会马上重启,现在确实是存在这个问题。
如果想要终止该次任务,可以在页面上手动操作
我们已经终止了,感谢。后续可能会对job-admin模块进行改造,将超时设置也放到monitor线程中以便于及时对相关丢失任务进行处理。
您好,我现在也遇到同样的问题,执行回调成功,但是结果一直处于进行中,hanlerCode 一直是0,麻烦问下您是怎么解决这个问题的
9ceoxa926#