ChatGPT-3 为什么LLM(LLaMA)的损耗会随着时间的推移呈阶梯状下降?

j2cgzkjk  于 2023-04-22  发布在  其他
关注(0)|答案(1)|浏览(239)

我正在训练一个LLM(LLaMA-6 B),并且注意到它的损失似乎在一个时期内以阶梯式的方式下降。具体来说,我会看到一个时期的损失变化很小,然后突然在一个新时期后损失会下降很多。
我很好奇是什么原因导致了这种现象。是学习率的问题,还是模型本身的架构?任何见解都将不胜感激!loss figure
我很好奇是什么导致了这种现象。任何见解都将不胜感激!

gopyfrb3

gopyfrb31#

在没有看到你的代码的情况下回答这个问题很难。然而,我的猜测是,在第二个时期开始时,模型开始再次看到相同的数据,并且开始记忆,因此损失在每个时期开始时都会大幅下降。

相关问题