我想计算可训练和不可训练变量的梯度。
并且仅更新可训练参数。
首先,我按如下方式实现它
with tf.GradientTape(persistent = True) as g:
preds = model(data)
loss = criterion(labels, preds)
gradients = g.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(gradients, model.trainable_variables))
non_train_gradients = g.gradient(loss, model.non_trainable_variables)
然而,上面的代码做了两次反向传播来计算梯度。
我想同时估计可训练和不可训练变量的梯度,
而仅更新可训练参数。
我该怎么做呢?
1条答案
按热度按时间5t7ly7z51#
我们可以利用梯度只是一个列表并且按照与我们放入的变量相同的顺序返回的事实:
也就是说,我们只是把所有不可训练的变量放在最后,然后在那一点上分割梯度。