torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 224.00 MiB. GPU
我正在运行一个评估框架,该框架正在评估多个模型。vllm似乎在初始化第二个模型(具有相同的变量名)后无法释放gpu内存,如何在每次调用vLLMEngine时释放gpu内存 llm = LLM(new_model)
llm = LLM(new_model)
v1l68za41#
尝试了#1908中的方法,但没有成功。
1条答案
按热度按时间v1l68za41#
尝试了#1908中的方法,但没有成功。