如何在pytorch中对变量应用指数移动平均衰减？

tv6aics1 于 2023-04-21 发布在其他

关注(0)|答案(2)|浏览(217)

我正在阅读下面的文章。它使用EMA衰减的变量。
Bidirectional Attention Flow for Machine Comprehension
在训练期间，模型的所有权重的移动平均值以0.999的指数衰减率保持。
他们使用TensorFlow，我找到了EMA的相关代码。
https://github.com/allenai/bi-att-flow/blob/master/basic/model.py#L229
在PyTorch中，如何将EMA应用于变量？

pytorch

来源：https://stackoverflow.com/questions/47679355/how-to-apply-exponential-moving-average-decay-for-variables-in-pytorch

2条答案

按热度按时间

j13ufse21#

通过拥有一个带有自定义更新规则的模型副本，可以为模型变量实现指数移动平均（EMA）。
首先，创建模型的副本以存储参数的移动平均值：

import copy

model = YourModel()
ema_model = copy.deepcopy(model)

然后，定义EMA更新函数，它将在每个训练步骤后更新模型参数的移动平均值：

def update_ema_variables(model, ema_model, ema_decay):
    with torch.no_grad():
        for ema_param, param in zip(ema_model.parameters(), model.parameters()):
            ema_param.data.copy_(ema_param.data * ema_decay + (1 - ema_decay) * param.data)

最后，在每个优化步骤之后，在训练循环中调用update_ema_variables函数：

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
ema_decay = 0.999

for epoch in range(epochs):
    for batch in data_loader:
        # Perform your forward pass, compute loss, and update model parameters
        optimizer.zero_grad()
        output = model(batch)
        loss = criterion(output, batch)
        loss.backward()
        optimizer.step()

        # Update EMA model
        update_ema_variables(model, ema_model, ema_decay)

使用此代码，您可以在训练期间维护模型参数的移动平均值。ema_model将保存EMA参数，您可以使用它进行评估或推断。
或者，也有一些具有简单 Package 器的库，例如https://github.com/fadel/pytorch_ema

赞(0）回复(0）举报 2023-04-21

hujrc8aj2#

移动平均线是梯度下降中动量的关键概念。
在PyTorch document中，您可以找到：
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
将参数momentum更改为所需的值。

赞(0）回复(0）举报 2023-04-21