当总图形内存使用量超过专用图形内存大小时,Ollama将停止使用GPU,

4ioopgfo  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(68)

问题是什么?

当我尝试运行模型时,我注意到一旦总图形内存使用量超过了显卡的专用图形内存大小,Ollama就会停止使用GPU进行推理。

我在任务管理器中看到显卡的利用率达到了0%。但是当我尝试使用低图形内存使用量的模型时,GPU利用率增加到了100%。

操作系统:Windows

GPU:Nvidia

CPU:Intel

Ollama版本:0.3.6

wgx48brx

wgx48brx1#

服务器日志将提供更多关于正在发生的事情的洞察。但通常,OLLAMA会在GPU和CPU之间分配模型,尽可能多地在GPU上加载。然而,CPU的效率低于GPU,因此CPU上的层的推理将比GPU上的层花费更长的时间。这意味着GPU会有空闲时间,等待CPU推理完成。

相关问题