Paddle clip操作导致分布式训练失败

zu0ti5jz  于 2021-11-29  发布在  Java
关注(0)|答案(2)|浏览(290)

在使用fluid.DistributeTranspiler配置的分布式场景下,添加如下梯度clip:
fluid.clip.set_gradient_clip(clip=fluid.clip.GradientClipByGlobalNorm(clip_norm=5.0))
会导致训练失败。
其中ps端报错:

trainer端报错:
GetRPC name:[atten_fc1.b_0], ep:[127.0.0.1:6000], status:[-1] meets grpc error, error_code:14 error_message:Socket closed error_details:

vzgqcmou

vzgqcmou1#

给个复现的例子

r1zk6ea1

r1zk6ea12#

模型还未发布,后面会提供一个最小可复现的例子

相关问题