在使用fluid.DistributeTranspiler配置的分布式场景下,添加如下梯度clip:fluid.clip.set_gradient_clip(clip=fluid.clip.GradientClipByGlobalNorm(clip_norm=5.0))
会导致训练失败。
其中ps端报错:
trainer端报错:
GetRPC name:[atten_fc1.b_0], ep:[127.0.0.1:6000], status:[-1] meets grpc error, error_code:14 error_message:Socket closed error_details:
2条答案
按热度按时间vzgqcmou1#
给个复现的例子
r1zk6ea12#
模型还未发布,后面会提供一个最小可复现的例子