我在自己的三个虚拟机上安装了dc/os1.9,所有节点都没有gpu资源,从/从公共节点启动成功。在一个从属日志中,它显示如下:
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: 2017-06-15 04:43:28,494:31752(0x7f9291dd8700):ZOO_INFO@log_env@726: Client environment:zookeeper.version=zookeeper C client 3.4.8
.....
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: I0615 04:43:28.495215 31752 slave.cpp:211] Mesos agent started on (1)@192.168.3.72:5051
在我的另一个mesos版本为1.0.1的测试环境中,我用“cgroups/devices,gpu/nvidia”隔离启动了一个mesos从节点(该节点也没有gpu资源),但它未能启动。日志显示:
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state.
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed.
我想知道:一个没有gpu资源的节点可以用gpu/nvidia隔离启动mesos salve吗?如果是,怎么做?
1条答案
按热度按时间hvvq6cgz1#
这里dc/os的行为与香草mesos略有不同。
对于vanilla mesos,如果启用
gpu/nvidia
但未安装nvml。使用dc/os时,如果没有安装nvml,代理将发出警告消息(the
gpu/nvidia
隔离器始终启用)。注意:依赖于nvml库,而不是实际的gpu资源。如果安装了nvml,但是在盒子上找不到gpu,那么代理不会失败地启动
gpu/nvidia
隔离器已启用。