看了其他Issue,提到分布式预测只提到了将数据在worker之间切分,那是不是指每个worker要各自加载模型。在模型比较大的时候这个就不是很经济,特别有的时候单机加载不了模型。
不知道支不支持基于PS的分布式预测,整个过程和训练时一样,参数在PS端,worker端只计算。fleet的接口好像一定要调用optimizer,否则报错。
0s0u357o1#
目前release版本对分布式预测支持不太完备, 有两种方法可以使用:1
更加完备的分布式预测能力,会在近期提交至开发分支, 届时关注。
e37o9pze2#
针对第一个方案,我在训练的时候看到如果有worker在900s内都没有触发更新参数,ps就会报错退出,所以直接用第一个方案是不是会有问题?
2条答案
按热度按时间0s0u357o1#
目前release版本对分布式预测支持不太完备, 有两种方法可以使用:1
更加完备的分布式预测能力,会在近期提交至开发分支, 届时关注。
e37o9pze2#
针对第一个方案,我在训练的时候看到如果有worker在900s内都没有触发更新参数,ps就会报错退出,所以直接用第一个方案是不是会有问题?