vllm examples/offline_inference.py,推理baichuan-13b，1*A100(80G)，会OOM？

nwlls2ji 于 5个月前发布在其他

关注(0)|答案(3)|浏览(96)

采用代码examples/offline_inference.py，vllm也这么吃显存吗？

来源：https://github.com/vllm-project/vllm/issues/2430

3条答案

按热度按时间

控制下gpu memory usage看下

赞(0）回复(0）举报 5个月前

vllm会将载入模型后剩余显存全拿来分配kv cache block,默认的gpu memory usage为0.9,越大就分配的越多。

赞(0）回复(0）举报 5个月前

将链接中文件init的函数默认参数gpu_memory_utilization: float = 0.9,改为0.5,相当于一开始占用你90%的显存，现在就只占用50%的显存了。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前