参考文章：

1、尝试将 backend=‘nccl’ 修改为 backend=‘gloo’，原因是win10暂时不支持nccl模式。

结果：未解决。

2、尝试更新pytorch至1.8。（为了提高 NCCL 稳定性，PyTorch 1.8 将支持稳定的异步错误/超时处理；支持 RPC 分析。此外，还增加了对管道并行的支持，并可以通过 DDP 中的通讯钩子进行梯度压缩。）

参考1：

ImportError：cannot import name ‘save_state_warning‘和解决torch1.7.1报分布式错误No rendezvous handler for env:_MASTER-松哥的博客-CSDN博客

1. 每个进程对应一个独立的训练过程，且只对梯度等少量数据进行信息交换。

2. 每个进程包含独立的解释器和 GIL。

分布式训练可以分为：
单机多卡，DataParallel（最常用，最简单）
单机多卡，DistributedDataParallel（较高级）
多机多卡，DistributedDataParallel（最高级）

pytorch No rendezvous handler for env://

相关文章