问题是什么?
Linux每次从挂起状态恢复时,都无法正确重新加载CUDA
。然而,这个问题已经通过使用命令如sudo rmmod nvidia_uvm
和sudo modprobe nvidia_uvm
得到了很好的解决。在此之后,除了Ollama
之外的所有依赖CUDA的服务都可以利用CUDA
并再次正常工作(例如,torch.randn((2,2)).cuda(0)
)。要恢复Ollama的GPU模式,只能通过重新启动Ollama服务来实现。这可以通过重新加载systemd并重启Ollama来完成:systemctl daemon-reload
和systemctl restart ollama
。我不确定是否遗漏了某些特定的Ollama
设置,所以我已经将此报告为一个bug。
操作系统
Linux
GPU
Nvidia
CPU
Intel
Ollama版本
0.1.48
2条答案
按热度按时间ohtdti5x1#
你能分享一个服务器日志,显示在GPU无法工作后恢复失败的情况吗?
vwhgwdsa2#
请分享一个服务器日志,显示在GPU不工作后恢复时出现的失败。
2024-07-04T22:08:25.348 [DEBUG] [gpu.go:454] 正在搜索GPU库
2024-07-04T22:08:25.350 [DEBUG] [gpu.go:488] 发现GPU库路径:[/usr/lib/i386-linux-gnu/libcuda.so.550.67, /usr/lib/x86_64-linux-gnu/libcuda.so.550.67]
2024-07-04T22:08:25.350 [ERROR] [gpu.go:517] 无法加载nvcuda库:/usr/lib/i386-linux-gnu/libcuda.so.550.67,错误信息:无法加载/usr/lib/i386-linux-gnu/libcuda.so.550.67库以查询Nvidia GPU:/usr/lib/i386-linux-gnu/libcuda.so.550.67,错误原因:ELF类错误,ELFCLASS32
2024-07-04T22:08:25.352 [DEBUG] [gpu.go:517] 无法加载nvcuda库:/usr/lib/x86_64-linux-gnu/libcuda.so.550.67,错误信息:nvcuda初始化失败:999
2024-07-04T22:08:25.352 [ERROR] [gpu.go:517] cuInit错误代码:999
2024-07-04T22:08:25.353 [DEBUG] [gpu.go:435] 正在搜索GPU库名称:libcudart.so*
2024-07-04T22:08:25.353 [DEBUG] [gpu.go:454] 正在搜索GPU库globs:[/home/bwnjnoei/libcudart.so**, /tmp/ollama558219018/runners/cuda*/libcudart.so*, /usr/local/cuda/lib64/libcudart.so*, /usr/lib/x86_64-linux-gnu/nvidia/current/libcudart.so*, /usr/lib/x86_64-linux-gnu/libcudart.so*, /usr/lib/wsl/lib/libcudart.so*, /usr/lib/wsl/drivers//libcudart.so, /opt/cuda/lib64/libcudart.so*, /usr/local