Paddle fleet分布式训练中,如何全局同步某个variable

wrrgggsh  于 2021-12-07  发布在  Java
关注(0)|答案(5)|浏览(329)

为使您的问题得到快速解决,在建立Issues前,请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】

  • 版本、环境信息:

   1)PaddlePaddle版本:paddlepaddle-gpu==2.1.1
   2)CPU:-
   3)GPU:V100, CUDA10.1
   4)系统环境:-

  • 训练信息

   1)单机,多卡
   2)显存信息 -
   3)Operator信息 -

  • 问题描述:请详细描述您的问题,同步贴出报错信息、日志、可复现的代码片段

在静态图中,我在参照fleet的教程进行单机多卡训练,现在想在各个GPU卡片上同步某一个variable,强制他们相同。想这么做是观测到在fleet训练时,不同GPU上的参数是会有差异的(不是很大),但是我们现在在做的项目对于某一个variable比较严格,要控制他在across-GPU level完全相同。 所以请问可以有类似的broadcast机制供使用吗?

jv4diomz

jv4diomz1#

您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档常见问题历史IssueAI社区来寻求解答。祝您生活愉快~

Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the APIFAQGithub Issue and AI community to get the answer.Have a nice day!

rjee0c15

rjee0c152#

可以参考这里的文档:https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/distributed/broadcast_cn.html#broadcast

nhhxz33t

nhhxz33t3#

谢谢。我调用后,报错如下:

请问要做什么转换吗?

4szc88ey

4szc88ey4#

我现在用program.global_block().var(var_name)拿到了framework.Variable。但是broadcast没有起作用,这个variable依然没有同步。请问还有其他方法吗?

iqxoj9l9

iqxoj9l95#

没起作用是什么意思,调用没有效果?请贴一下相关代码吧,谢谢。

相关问题