我和marathon&mesos&docker合作得很好,但是最近发现了一个问题,当mesos slave遇到异常时,marathon上的任务状态会变为task\u lost,大约15分钟后任务就不能终止了。
我做了一个测试,手动重新启动运行mesos slave服务和docker的操作系统并运行任务,然后marathonui中显示的任务状态变为“unscheduled(100%)”,任务也不能自动终止,直到大约15分钟过去。我的问题是如何减少这个时间?我尝试添加马拉松启动命令行参数
task_launch_confirm_timeout=30000
scale_apps_interval = 30000
task_lost_expunge_initial_delay = 30000
task_launch_timeout = 30000
并添加mesos slave启动命令行参数
recovery_timeout=1mins
但这对我没用。
1条答案
按热度按时间5gfr0r5j1#
如果mesos代理进程失败,要强制更改执行器自杀后的时间,应该配置
--recovery_timeout
分配给代理恢复的时间量。如果代理的恢复时间超过恢复超时时间,则等待重新连接到代理的任何执行器都将自行终止(默认值:15分钟)