ollama Olama运行模型的速度是否与CUDA版本有关？

z2acfund 于 4个月前发布在其他

关注(0)|答案(1)|浏览(109)

问题是什么？
我使用最新版本的Ollama部署了qwen2:72B,但发现在不同的nvidia驱动版本下，Ollama模型的加载速度差异很大。

驱动版本：535.183.06 | cuda版本：12.2
Ollama版本：0.3.4
模型加载时间：29秒

驱动版本：515.105.01 | cuda版本：11.7
Ollama版本：0.3.6
模型加载时间：659秒

GPU:A800
操作系统：Linux
GPU制造商：Nvidia
CPU:无响应
Ollama版本：无响应

ollama

来源：https://github.com/ollama/ollama/issues/6420

1条答案

按热度按时间

zbdgwd5y1#

如果模型已经在缓冲区缓存中，重新加载将更快。尝试这个：

time curl localhost:11434/api/generate -d '{"model":"qwen2:72b","prompt":"hi","options":{"seed":0},"stream":false,"keep_alive":0}'
sleep 5
time curl localhost:11434/api/generate -d '{"model":"qwen2:72b","prompt":"hi","options":{"seed":0},"stream":false,"keep_alive":0}'

第二个命令将从缓冲区缓存中加载模型，并为您提供一个更好的估计，即cuda驱动程序将模型加载到GPU所需的时间。

赞(0）回复(0）举报 4个月前

我来回答

ollama Olama运行模型的速度是否与CUDA版本有关？

1条答案

相关问题

热门标签

最新问答