Paddle fleet分布式训练中，如何全局同步某个variable

wrrgggsh 于 2021-12-07 发布在 Java

关注(0)|答案(5)|浏览(329)

为使您的问题得到快速解决，在建立Issues前，请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】

版本、环境信息：

1）PaddlePaddle版本：paddlepaddle-gpu==2.1.1
2）CPU：-
3）GPU：V100, CUDA10.1
4）系统环境：-

训练信息

1）单机，多卡
2）显存信息 -
3）Operator信息 -

问题描述：请详细描述您的问题，同步贴出报错信息、日志、可复现的代码片段

在静态图中，我在参照fleet的教程进行单机多卡训练，现在想在各个GPU卡片上同步某一个variable，强制他们相同。想这么做是观测到在fleet训练时，不同GPU上的参数是会有差异的（不是很大），但是我们现在在做的项目对于某一个variable比较严格，要控制他在across-GPU level完全相同。所以请问可以有类似的broadcast机制供使用吗？

Paddle

来源：https://github.com/PaddlePaddle/Paddle/issues/33855

5条答案

按热度按时间

jv4diomz1#

您好，我们已经收到了您的问题，会安排技术人员尽快解答您的问题，请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时，您也可以通过查看官网API文档、常见问题、历史Issue、AI社区来寻求解答。祝您生活愉快～

Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the API，FAQ，Github Issue and AI community to get the answer.Have a nice day!

赞(0）回复(0）举报 2021-12-07

rjee0c152#

可以参考这里的文档：https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/distributed/broadcast_cn.html#broadcast

赞(0）回复(0）举报 2021-12-07

nhhxz33t3#

谢谢。我调用后，报错如下：