ChatGPT-3 为什么LLM(LLaMA)的损耗会随着时间的推移呈阶梯状下降？

j2cgzkjk 于 2023-04-22 发布在其他

关注(0)|答案(1)|浏览(245)

我正在训练一个LLM（LLaMA-6 B），并且注意到它的损失似乎在一个时期内以阶梯式的方式下降。具体来说，我会看到一个时期的损失变化很小，然后突然在一个新时期后损失会下降很多。
我很好奇是什么原因导致了这种现象。是学习率的问题，还是模型本身的架构？任何见解都将不胜感激！loss figure
我很好奇是什么导致了这种现象。任何见解都将不胜感激！

来源：https://stackoverflow.com/questions/75866651/why-does-llmllama-loss-drop-staircase-like-over-epochs

1条答案

按热度按时间

在没有看到你的代码的情况下回答这个问题很难。然而，我的猜测是，在第二个时期开始时，模型开始再次看到相同的数据，并且开始记忆，因此损失在每个时期开始时都会大幅下降。

赞(0）回复(0）举报 2023-04-22

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前