关于vllm,您想讨论什么问题?
我正在使用NVIDIA A100 80GB MIG 3g.40gb slice部署microsoft/Phi-3-medium-128k-instruct(约26gb),并使用vllm。然而,我一直遇到OOM问题。以下是我初始化模型的方式:
engine_args = AsyncEngineArgs(
model="microsoft/Phi-3-medium-128k-instruct",
gpu_memory_utilization=0.8,
dtype=torch.float16,
enforce_eager=True,
trust_remote_code=True
)
loaded_llm = AsyncLLMEngine.from_engine_args(engine_args)
这是错误信息:
RuntimeError: NVML_SUCCESS == r INTERNAL ASSERT FAILED at "../c10/cuda/CUDACachingAllocator.cpp":844, 请向PyTorch报告错误。
关于如何调整参数以使此模型适应您的40g MIG切片,您可以尝试以下方法:
减小
gpu_memory_utilization
的值。这将限制GPU内存的使用率,但可能会影响模型的性能。例如,将其设置为0.5或更低。考虑使用较小的模型。如果可能的话,尝试使用一个较小的模型,以便在有限的内存中运行。
检查是否有其他进程在使用大量GPU内存。如果有其他进程也在使用大量GPU内存,您可能需要等待它们完成操作,或者考虑升级硬件。
1条答案
按热度按时间oxiaedzo1#
请包含问题模板?
也许可以尝试使用v0.4.3版本再次进行操作。