ludwig 无法在具有两个Tesla T4 GPU的机器上使用DeepSpeed集成训练llama-7b,

0dxa2lsx  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(41)

你好!

我正在尝试在具有两个Tesla T4 GPU的VM上使用原生deepspeed进行llama-7b分布式训练。我遇到了以下错误:“RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1!”

我的当前操作系统是Ubuntu 20.04,Python版本是3.10.13。

model.yaml文件内容如下:

环境设置:

请问你能指导我解决这个问题吗?

非常感谢!

aemubtdh

aemubtdh1#

你好,Ragul-Ramdass -感谢你报告这个问题和#3783中的问题 -请给我们几天时间调查并回复你(我也在上述问题中留下了类似的信息)。谢谢。

ycl3bljg

ycl3bljg2#

你好,@alexsherstinsky。
感谢你查看这个问题。如果你需要其他信息,请告诉我。我的目标是使用deepspeed在ludwig中实现分布式训练,如果你能提供任何解决方案,那将非常棒。谢谢。

相关问题