vllm [Bug]: torch.cuda.OutOfMemoryError: CUDA内存不足，无法处理推理请求

gmxoilav 于 6个月前发布在其他

关注(0)|答案(2)|浏览(43)

您好，这个问题可能是由于GPU内存不足导致的。您可以尝试使用一些工具来估算模型的GPU内存消耗，例如DNNMem。此外，您还可以尝试减少批量大小或使用更小的模型来减少GPU内存的使用量。如果您使用的是PyTorch,您可以使用以下代码来检查GPU内存使用情况：

import torch
print(torch.cuda.memory_allocated())
print(torch.cuda.max_memory_allocated())

2条答案

是否有人正在调查这个问题？

可能由 #5355 修复。