gpu/nvidia在dc/os中的隔离

mepcadol  于 2021-06-26  发布在  Mesos
关注(0)|答案(1)|浏览(472)

我在自己的三个虚拟机上安装了dc/os1.9,所有节点都没有gpu资源,从/从公共节点启动成功。在一个从属日志中,它显示如下:

Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: 2017-06-15 04:43:28,494:31752(0x7f9291dd8700):ZOO_INFO@log_env@726: Client environment:zookeeper.version=zookeeper C client 3.4.8
.....
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: I0615 04:43:28.495215 31752 slave.cpp:211] Mesos agent started on (1)@192.168.3.72:5051

在我的另一个mesos版本为1.0.1的测试环境中,我用“cgroups/devices,gpu/nvidia”隔离启动了一个mesos从节点(该节点也没有gpu资源),但它未能启动。日志显示:

Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state.
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed.

我想知道:一个没有gpu资源的节点可以用gpu/nvidia隔离启动mesos salve吗?如果是,怎么做?

hvvq6cgz

hvvq6cgz1#

这里dc/os的行为与香草mesos略有不同。
对于vanilla mesos,如果启用 gpu/nvidia 但未安装nvml。
使用dc/os时,如果没有安装nvml,代理将发出警告消息(the gpu/nvidia 隔离器始终启用)。
注意:依赖于nvml库,而不是实际的gpu资源。如果安装了nvml,但是在盒子上找不到gpu,那么代理不会失败地启动 gpu/nvidia 隔离器已启用。

相关问题