问题是什么?我使用最新版本的Ollama部署了qwen2:72B,但发现在不同的nvidia驱动版本下,Ollama模型的加载速度差异很大。
驱动版本:535.183.06 | cuda版本:12.2Ollama版本:0.3.4模型加载时间:29秒
驱动版本:515.105.01 | cuda版本:11.7Ollama版本:0.3.6模型加载时间:659秒
GPU:A800操作系统:LinuxGPU制造商:NvidiaCPU:无响应Ollama版本:无响应
zbdgwd5y1#
如果模型已经在缓冲区缓存中,重新加载将更快。尝试这个:
time curl localhost:11434/api/generate -d '{"model":"qwen2:72b","prompt":"hi","options":{"seed":0},"stream":false,"keep_alive":0}' sleep 5 time curl localhost:11434/api/generate -d '{"model":"qwen2:72b","prompt":"hi","options":{"seed":0},"stream":false,"keep_alive":0}'
第二个命令将从缓冲区缓存中加载模型,并为您提供一个更好的估计,即cuda驱动程序将模型加载到GPU所需的时间。
1条答案
按热度按时间zbdgwd5y1#
如果模型已经在缓冲区缓存中,重新加载将更快。尝试这个:
第二个命令将从缓冲区缓存中加载模型,并为您提供一个更好的估计,即cuda驱动程序将模型加载到GPU所需的时间。