无
我希望在一台拥有8个3090 GPU的服务器上部署llama3-70b模型。当我启用enable_lora开关时,只要我不启用enforce_eager标志,系统肯定会超过内存限制(即使上下文长度减少到128)。然而,当我禁用enable_lora时,它占用大约85%的内存来运行。我想了解启用和禁用lora时CUDA图中内存消耗的差异。在这种情况下,如何在不超过内存限制的情况下为模型启用CUDA图加速?
3z6pesqy1#
我不熟悉lora部分。如果没有lora,cudagraph不应该消耗太多内存(我认为小于1GB)。cc @Yard1 有关lora的问题。
hivapdat2#
当使用LoRA时,预计内存使用量会增加,因为它预先分配了GPU缓冲区来存储LoRA权重。我认为这不会改变CUDA图的内存消耗。
2条答案
按热度按时间3z6pesqy1#
我不熟悉lora部分。如果没有lora,cudagraph不应该消耗太多内存(我认为小于1GB)。cc @Yard1 有关lora的问题。
hivapdat2#
当使用LoRA时,预计内存使用量会增加,因为它预先分配了GPU缓冲区来存储LoRA权重。我认为这不会改变CUDA图的内存消耗。