vllm [Bug]: torch.cuda.OutOfMemoryError: CUDA内存不足,无法处理推理请求

gmxoilav  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(43)

您好,这个问题可能是由于GPU内存不足导致的。您可以尝试使用一些工具来估算模型的GPU内存消耗,例如DNNMem。此外,您还可以尝试减少批量大小或使用更小的模型来减少GPU内存的使用量。如果您使用的是PyTorch,您可以使用以下代码来检查GPU内存使用情况:

import torch
print(torch.cuda.memory_allocated())
print(torch.cuda.max_memory_allocated())

相关问题