根据您提供的信息,这个问题可能是由于Gloo连接全网格失败导致的。为了解决这个问题,您可以尝试以下方法:
voj3qocg1#
@JKYtydt 我也遇到了同样的问题:我可能错了,但我认为你需要在设置ray集群之前设置变量GLOO_SOCKET_IFNAME,而不是在你的Python脚本中。当你运行Python脚本时,ray集群已经创建了,我认为在这个相同的脚本中设置变量没有效果。
mqxuamgl2#
是的,我在设置射线簇之前也设置了环境变量,但是仍然没有解决这个问题。不过,当我用两台服务器进行推理时,设置环境变量解决了这个问题。所以我在想,是不是因为无法用两台笔记本去推理呢?
webghufk3#
正确的NCCL变量是"NCCL_SOCKET_IFNAME",你那里有一个拼写错误。
aydmsdu94#
您好,可能是打错了,脚本运行的时候是正确的,我依旧没有找到相关的解决办法,不知道是不是因为两台电脑无法通信。
4条答案
按热度按时间voj3qocg1#
@JKYtydt 我也遇到了同样的问题:我可能错了,但我认为你需要在设置ray集群之前设置变量GLOO_SOCKET_IFNAME,而不是在你的Python脚本中。当你运行Python脚本时,ray集群已经创建了,我认为在这个相同的脚本中设置变量没有效果。
mqxuamgl2#
是的,我在设置射线簇之前也设置了环境变量,但是仍然没有解决这个问题。不过,当我用两台服务器进行推理时,设置环境变量解决了这个问题。所以我在想,是不是因为无法用两台笔记本去推理呢?
webghufk3#
正确的NCCL变量是"NCCL_SOCKET_IFNAME",你那里有一个拼写错误。
aydmsdu94#
您好,可能是打错了,脚本运行的时候是正确的,我依旧没有找到相关的解决办法,不知道是不是因为两台电脑无法通信。