Paddle 关于动态图模型保存问题

mlmc2os5 于 2022-04-21 发布在 Java

关注(0)|答案(3)|浏览(292)

环境:
python3.6
paddlepaddle-gpu v1.8.3

Q1: 当多卡训练的时候，例如单机4卡为什么每个epoch会保存4个模型。
Q2：在多卡训练的时候，保存模型的步骤会随机出现错误，保存模型用fluid.dygraph.save_dygraph(model.state_dict(), 'path'), 会随机出现pickle.dump的问题，报MEMORY ERROR，我看在paddle实现过程中是用pickle.dump()保存模型，网上有人说是因为数据太大了？可是每一代都保存有时候训练到40多epoch会报错，有时候一上来就报错，是为什么呢？希望得到解释。

来源：https://github.com/PaddlePaddle/Paddle/issues/26575

3条答案

按热度按时间

你后，动态图模型保存问题后续由 @phlrain 跟进 ~~

赞(0）回复(0）举报 2022-04-21

动态图是通过多进程的方式启动多卡的，需要没有进行一些判断和设置，建议使用以下方式进行判断和处理
if fluid.dygraph.parallel.Env().local_rank == 0：
fluid.save_dygraph(mnist.state_dict, “path”)

赞(0）回复(0）举报 2022-04-21

动态图是通过多进程的方式启动多卡的，需要没有进行一些判断和设置，建议使用以下方式进行判断和处理
if fluid.dygraph.parallel.Env().local_rank == 0：
fluid.save_dygraph(mnist.state_dict, “path”)

hi, 谢谢我现在用int(os.getenv("PADDLE_TRAINER_ID", 0))==x 这种方法判断也可以吧？还有个问题，就是每张卡的精度不一样，我如果想保存精度最好的那个模型，我应该怎么比较这多个进程的精度呢？

赞(0）回复(0）举报 2022-04-21

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前