你好!
我正在尝试在具有两个Tesla T4 GPU的VM上使用原生deepspeed进行llama-7b分布式训练。我遇到了以下错误:“RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1!”
我的当前操作系统是Ubuntu 20.04,Python版本是3.10.13。
model.yaml文件内容如下:
环境设置:
请问你能指导我解决这个问题吗?
非常感谢!
2条答案
按热度按时间aemubtdh1#
你好,Ragul-Ramdass -感谢你报告这个问题和#3783中的问题 -请给我们几天时间调查并回复你(我也在上述问题中留下了类似的信息)。谢谢。
ycl3bljg2#
你好,@alexsherstinsky。
感谢你查看这个问题。如果你需要其他信息,请告诉我。我的目标是使用deepspeed在ludwig中实现分布式训练,如果你能提供任何解决方案,那将非常棒。谢谢。