[Misc]: 加载 microsoft/Phi-3-medium-128k-instruct with vLLM

uelo1irk 于 6个月前发布在其他

关注(0)|答案(1)|浏览(56)

关于vllm,您想讨论什么问题？

我正在使用NVIDIA A100 80GB MIG 3g.40gb slice部署microsoft/Phi-3-medium-128k-instruct(约26gb),并使用vllm。然而，我一直遇到OOM问题。以下是我初始化模型的方式：

engine_args = AsyncEngineArgs(
    model="microsoft/Phi-3-medium-128k-instruct",
    gpu_memory_utilization=0.8,
    dtype=torch.float16,
    enforce_eager=True,
    trust_remote_code=True
)
loaded_llm = AsyncLLMEngine.from_engine_args(engine_args)

这是错误信息：

RuntimeError: NVML_SUCCESS == r INTERNAL ASSERT FAILED at "../c10/cuda/CUDACachingAllocator.cpp":844, 请向PyTorch报告错误。

关于如何调整参数以使此模型适应您的40g MIG切片，您可以尝试以下方法：

减小gpu_memory_utilization的值。这将限制GPU内存的使用率，但可能会影响模型的性能。例如，将其设置为0.5或更低。
考虑使用较小的模型。如果可能的话，尝试使用一个较小的模型，以便在有限的内存中运行。
检查是否有其他进程在使用大量GPU内存。如果有其他进程也在使用大量GPU内存，您可能需要等待它们完成操作，或者考虑升级硬件。

vllm

来源：https://github.com/vllm-project/vllm/issues/5107

1条答案

按热度按时间

oxiaedzo1#

请包含问题模板？
也许可以尝试使用v0.4.3版本再次进行操作。

赞(0）回复(0）举报 6个月前

我来回答

[Misc]: 加载 microsoft/Phi-3-medium-128k-instruct with vLLM

1条答案

相关问题

热门标签

最新问答