希望在A100 40G上部署 Chinese-LLaMA-33B,进行推理,但单张卡的显存不够。如何进行多卡部署,例如使用2张卡进行推理?能否提供示例代码?非常感谢!
db2dz4w81#
您可以在 llama_infer 中指定 world_size 参数来使用多卡。
i5desfxk2#
可以在llama_infer中指定world_size参数来使用多卡。
llama_infer
world_size
非常感谢!
2条答案
按热度按时间db2dz4w81#
您可以在 llama_infer 中指定 world_size 参数来使用多卡。
i5desfxk2#
可以在
llama_infer
中指定world_size
参数来使用多卡。非常感谢!