我已经使用Transformer模型来训练时间序列数据集,但是在我的损失曲线中,训练和验证之间总是存在差距。我尝试使用不同的学习率、批大小、辍学、头、dim_feedforward和层,但是它们都不起作用。有人能给予我一些关于减少它们之间差距的想法吗?
我也试着在Pytorch论坛上问这个问题,但没有得到任何回复。How to design a decoder for time series regression in Transformer?
我已经使用Transformer模型来训练时间序列数据集,但是在我的损失曲线中,训练和验证之间总是存在差距。我尝试使用不同的学习率、批大小、辍学、头、dim_feedforward和层,但是它们都不起作用。有人能给予我一些关于减少它们之间差距的想法吗?
我也试着在Pytorch论坛上问这个问题,但没有得到任何回复。How to design a decoder for time series regression in Transformer?
1条答案
按热度按时间ldfqzlk81#
由于您在此处过度拟合模型1.尝试使用更多数据2.尝试添加dropOut图层3.尝试使用套索或山脊