kubernetes 启动pod前等待nvidia gpu操作员

fumotvh3  于 2023-03-12  发布在  Kubernetes
关注(0)|答案(1)|浏览(164)

我遇到了一个问题,helm install ing我的图表将工作正常,但当我去重新启动系统,nvidia gpu操作员将无法验证。
Bootstrap 很简单:
$ microk8s enable gpu
〈观察 Jmeter 板,所有pod均变为绿色〉
$ microk8s helm install -n morpheus morpheus-ai-engine morpheus-ai-engine
〈等待睡眠舱变绿色〉
现在我可以检查ai-engine pod是否具有GPU访问权限:

$ kubectl exec ai-engine-897d65cff-b2trz -- nvidia-smi
Wed Feb 22 16:35:32 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.78.01    Driver Version: 525.78.01    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Quadro P400         Off  | 00000000:04:00.0 Off |                  N/A |
|  0%   38C    P8    N/A /  30W |     98MiB /  2048MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

运行测试向量添加pod返回一个Test PASSED
重启microk 8 s后出现问题,nvidia-device-plugin-validator pod加载失败,UnexpectedAdmissionError声称没有GPU可用,在ai-engine pod中运行nvidia-smi返回“command not found”,vector-add测试pod无法启动,原因是GPU不足。
但是如果我卸载ai-engine图表并重新启动microk 8 s(等待gpu操作员pod全部变绿色),我可以重新安装ai-engine,它再次正常工作,就像向量添加测试一样。

blmhpbnm

blmhpbnm1#

这是一个我也遇到的问题,我听说,它看起来像是最近才修复了这个补丁https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/release-notes.html#id2
这将在操作员再次启动时驱逐请求GPU的Pod。这应该可以解决你的问题,就像它解决我的问题一样。

相关问题