参考文章:
1、尝试将 backend=‘nccl’ 修改为 backend=‘gloo’,原因是win10暂时不支持nccl模式。
结果:未解决。
2、尝试更新pytorch至1.8。(为了提高 NCCL 稳定性,PyTorch 1.8 将支持稳定的异步错误/超时处理;支持 RPC 分析。此外,还增加了对管道并行的支持,并可以通过 DDP 中的通讯钩子进行梯度压缩。)
参考1:
RunTimeError:No rendezvous handler for env:// - 知乎
ImportError:cannot import name ‘save_state_warning‘和解决torch1.7.1报分布式错误No rendezvous handler for env:_MASTER-松哥的博客-CSDN博客
1. 每个进程对应一个独立的训练过程,且只对梯度等少量数据进行信息交换。
2. 每个进程包含独立的解释器和 GIL。
分布式训练可以分为:
单机多卡,DataParallel(最常用,最简单)
单机多卡,DistributedDataParallel(较高级)
多机多卡,DistributedDataParallel(最高级)
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://blog.csdn.net/jacke121/article/details/124658030
内容来源于网络,如有侵权,请联系作者删除!