我们正在使用mesos 1.20+marathon 1.4.3来运行sparkjob。我正在尝试使用一种算法来预测作业资源的使用情况,以实现自动放大/缩小。我可以在http://:5050/#/agents/的mesos网页中看到每个框架的动态资源使用情况。不过,从endpoint看,我只能获得每个从属服务器的使用情况,如下面的链接:
在mesos中查找当前资源使用的活动框架
是否有任何方法可以通过mesos端点获得每个框架的快照资源使用情况?
我也在mesos slave中尝试了这个端点,看起来每个框架也没有cpu/内存信息。
http://agent-ip:5051/度量/快照/从属(1)/监视/统计
{
"slave/executors_terminated": 114751.0,
"slave/tasks_finished": 63594.0,
"slave/cpus_total": 8.0,
"slave/executors_preempted": 0.0,
"slave/cpus_percent": 1.0125,
"slave/executors_running": 8.0,
"slave/gpus_revocable_used": 0.0,
"slave/invalid_status_updates": 256.0,
"slave/executors_registering": 0.0,
"slave/tasks_gone": 0.0,
"slave/cpus_revocable_percent": 0.0,
"slave/gpus_total": 0.0,
"slave/tasks_killed": 50763.0,
"slave/tasks_starting": 0.0,
"slave/registered": 1.0,
"slave/gpus_revocable_total": 0.0,
....
}
谢谢
1条答案
按热度按时间4ioopgfo1#
要收集这些信息,您需要查询每个代理
/slave/monitor/statistics/
终结点并按框架id收集所有执行者度量和组执行者度量。这是一个diamond mesos收集器,它可以执行此操作,但它只收集单个代理数据。您可以在度量可视化工具(如grafana)中对它们进行分组。