我正在训练一个LLM(LLaMA-6 B),并且注意到它的损失似乎在一个时期内以阶梯式的方式下降。具体来说,我会看到一个时期的损失变化很小,然后突然在一个新时期后损失会下降很多。
我很好奇是什么原因导致了这种现象。是学习率的问题,还是模型本身的架构?任何见解都将不胜感激!loss figure
我很好奇是什么导致了这种现象。任何见解都将不胜感激!
我正在训练一个LLM(LLaMA-6 B),并且注意到它的损失似乎在一个时期内以阶梯式的方式下降。具体来说,我会看到一个时期的损失变化很小,然后突然在一个新时期后损失会下降很多。
我很好奇是什么原因导致了这种现象。是学习率的问题,还是模型本身的架构?任何见解都将不胜感激!loss figure
我很好奇是什么导致了这种现象。任何见解都将不胜感激!
1条答案
按热度按时间gopyfrb31#
在没有看到你的代码的情况下回答这个问题很难。然而,我的猜测是,在第二个时期开始时,模型开始再次看到相同的数据,并且开始记忆,因此损失在每个时期开始时都会大幅下降。