采用代码examples/offline_inference.py,vllm也这么吃显存吗?
ubbxdtey1#
控制下gpu memory usage看下
83qze16e2#
vllm会将载入模型后剩余显存全拿来分配kv cache block,默认的gpu memory usage为0.9,越大就分配的越多。
7z5jn7bk3#
将链接中文件init的函数默认参数gpu_memory_utilization: float = 0.9,改为0.5,相当于一开始占用你90%的显存,现在就只占用50%的显存了。
3条答案
按热度按时间ubbxdtey1#
控制下gpu memory usage看下
83qze16e2#
vllm会将载入模型后剩余显存全拿来分配kv cache block,默认的gpu memory usage为0.9,越大就分配的越多。
7z5jn7bk3#
将链接中文件init的函数默认参数gpu_memory_utilization: float = 0.9,改为0.5,相当于一开始占用你90%的显存,现在就只占用50%的显存了。