训练过程中随机iter中出现报错: RuntimeWarning: Invalid value encountered in median
r = func(a,**kwargs) 然后损失会变成nan
2020-01-09 08:29:41,280-INFO: iter: 38900, lr: 0.000500, 'loss': '3.347605', time: 0.938, eta: 2 days, 20:04:31
2020-01-09 08:29:57,997-INFO: iter: 38920, lr: 0.000500, 'loss': '3.927342', time: 0.679, eta: 2 days, 1:18:34
2020-01-09 08:30:16,731-INFO: iter: 38940, lr: 0.000500, 'loss': '3.320120', time: 0.824, eta: 2 days, 11:46:39
/root/paddlejob/workspace/env_run/anaconda3/lib/python3.7/site-packages/numpy/lib/function_base.py:3405: RuntimeWarning: Invalid value encountered in median
r = func(a,**kwargs)
2020-01-09 08:30:33,687-INFO: iter: 38960, lr: 0.000500, 'loss': 'nan', time: 1.134, eta: 3 days, 10:18:00
2020-01-09 08:30:50,932-INFO: iter: 38980, lr: 0.000500, 'loss': 'nan', time: 0.859, eta: 2 days, 14:21:49
2020-01-09 08:31:08,486-INFO: iter: 39000, lr: 0.000500, 'loss': 'nan', time: 0.920, eta: 2 days, 18:43:11
2020-01-09 08:31:26,606-INFO: iter: 39020, lr: 0.000500, 'loss': 'nan', time: 1.346, eta: 4 days, 1:39:19
7条答案
按热度按时间ogq8wdun1#
是用的哪个模型?
eimct9ow2#
是用的哪个模型?
用的ppdet的 mobilenetssd
ve7v8dk23#
bwntbbo34#
paddle 版本是1.6.1 训练数据是自己的数据 该数据在ppdet yolo系列正常训练过模型
vwhgwdsa5#
可以先利用中间的checkpoint恢复训练吧。 出nan得具体问题查看才能确定原因,注意lr和batch size, GPU个数关系。
9udxz4iz6#
@Cristhine 在使用Mobilenet-SSD时请问是否加了预训练模型?建议先看下中间模型结果可视化是否正常~
jchrr9hc7#
@Cristhine 在使用Mobilenet-SSD时请问是否加了预训练模型?建议先看下中间模型结果可视化是否正常~
使用了预训练模型的 中间结果取出 可视化看了 结果是正确的 map达到0.42左右了