Paddle 【论文复习】加载训练好的模型训练几个step出现网络参数一直为nan的情况

5lhxktic  于 2022-04-21  发布在  Java
关注(0)|答案(7)|浏览(272)

为使您的问题得到快速解决,在建立Issues前,请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】

如果您没有查询到相似问题,为快速解决您的提问,建立issue时请提供如下细节信息:

  • 标题:简洁、精准概括您的问题,例如“Insufficient Memory xxx" ”
  • 版本、环境信息:

   1)PaddlePaddle版本:1.8.0
   2)CPU:AI Studio
   3)GPU:Tesla V100 16G
   4)系统环境:Ubuntu 16.04.6 LTS , Python3.7
注:您可以通过执行summary_env.py获取以上信息。

  • 训练信息

   1)单卡
   2)显存信息
   3)Operator信息

  • 复现信息:未报错,只是其中一个子网络参数全部变成了nan,loss变大
  • 问题描述:

之前已经将模型训练20个epoch,模型训练精度达到了0.99左右,重新加载与训练的模型后进行超参数调节训练,训练几个step后通过打印发现rep_flow_layer子网络的参数变成了nan(大多数时候会正常训练)

Thank you for contributing to PaddlePaddle.
Before submitting the issue, you could search issue in the github in case that there was a similar issue submitted or resolved before.
If there is no solution,please make sure that this is a training issue including the following details:

System information

-PaddlePaddle version (eg.1.1)or CommitID
-CPU: including CPUMKL/OpenBlas/MKLDNN version
-GPU: including CUDA/CUDNN version
-OS Platform (eg.Mac OS 10.14)
-Other imformation: Distriuted training/informantion of operator/
Graphics card storage
Note: You can get most of the information by running summary_env.py.

To Reproduce

Steps to reproduce the behavior

Describe your current behavior
Code to reproduce the issue
Other info / logs

g6baxovj

g6baxovj1#

有尝试下把学习率调小看看吗?

f8rj6qna

f8rj6qna2#

有尝试下把学习率调小看看吗?

没作用的,保持学习率,调小学习率都试过不行的。只有重启系统后才能解决

ztmd8pv5

ztmd8pv53#

重启系统后还会复现这个问题吗?

z9zf31ra

z9zf31ra4#

重启系统后还会复现这个问题吗?

重启偶尔有,大多数时候能够正常

hgc7kmma

hgc7kmma5#

在跑官方代码DIEN网络的时候遇到同样的问题,跑一段时间后embedding出来的全是nan,啥情况有大佬解答吗

mum43rcc

mum43rcc6#

跑官方代码DIEN网络训练的配置有做任何修改吗?单卡还是多卡?可以提供一下你的运行配置和命令,我们先看看能否复现该问题

cczfrluj

cczfrluj7#

跑官方代码DIEN网络训练的配置有做任何修改吗?单卡还是多卡?可以提供一下你的运行配置和命令,我们先看看能否复现该问题

我在AI-Studio上面跑的单卡,只改了dien/reader.py 里面pad数据部分,不改的话跑不通,在PaddleRec群里面也有味帅哥说帮忙复现好几天也没下文了,你可以fork这个项目,在~/下面有reader.py就是我修改的,paddle_train.txt是amazon完整的训练集

项目地址:https://aistudio.baidu.com/aistudio/projectdetail/654468
环境信息:
Python版本:python3.7
框架版本:PaddlePaddle 1.8.0

相关问题