vllm 如何将llama3-70b部署在具有8个3090 GPU的服务器上,并使用lora和CUDA图形?

yhuiod9q  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(54)

当前环境

您希望如何使用vllm

我希望在一台拥有8个3090 GPU的服务器上部署llama3-70b模型。当我启用enable_lora开关时,只要我不启用enforce_eager标志,系统肯定会超过内存限制(即使上下文长度减少到128)。然而,当我禁用enable_lora时,它占用大约85%的内存来运行。我想了解启用和禁用lora时CUDA图中内存消耗的差异。
在这种情况下,如何在不超过内存限制的情况下为模型启用CUDA图加速?

3z6pesqy

3z6pesqy1#

我不熟悉lora部分。如果没有lora,cudagraph不应该消耗太多内存(我认为小于1GB)。cc @Yard1 有关lora的问题。

hivapdat

hivapdat2#

当使用LoRA时,预计内存使用量会增加,因为它预先分配了GPU缓冲区来存储LoRA权重。我认为这不会改变CUDA图的内存消耗。

相关问题