我遇到了一个问题,helm install
ing我的图表将工作正常,但当我去重新启动系统,nvidia gpu操作员将无法验证。
Bootstrap 很简单:$ microk8s enable gpu
〈观察 Jmeter 板,所有pod均变为绿色〉$ microk8s helm install -n morpheus morpheus-ai-engine morpheus-ai-engine
〈等待睡眠舱变绿色〉
现在我可以检查ai-engine
pod是否具有GPU访问权限:
$ kubectl exec ai-engine-897d65cff-b2trz -- nvidia-smi
Wed Feb 22 16:35:32 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.78.01 Driver Version: 525.78.01 CUDA Version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Quadro P400 Off | 00000000:04:00.0 Off | N/A |
| 0% 38C P8 N/A / 30W | 98MiB / 2048MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
+-----------------------------------------------------------------------------+
运行测试向量添加pod返回一个Test PASSED
。
重启microk 8 s后出现问题,nvidia-device-plugin-validator
pod加载失败,UnexpectedAdmissionError
声称没有GPU可用,在ai-engine
pod中运行nvidia-smi
返回“command not found”,vector-add测试pod无法启动,原因是GPU不足。
但是如果我卸载ai-engine
图表并重新启动microk 8 s(等待gpu操作员pod全部变绿色),我可以重新安装ai-engine
,它再次正常工作,就像向量添加测试一样。
1条答案
按热度按时间blmhpbnm1#
这是一个我也遇到的问题,我听说,它看起来像是最近才修复了这个补丁https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/release-notes.html#id2
这将在操作员再次启动时驱逐请求GPU的Pod。这应该可以解决你的问题,就像它解决我的问题一样。