Paddle 升级paddle 2.0版本后报错 Cuda error(9)

lymnna71  于 2022-04-21  发布在  Java
关注(0)|答案(4)|浏览(404)

1)PaddlePaddle版本:2.0.0 / 2.1.0
2)GPU:V100、CUDA 10.1,显存32g
3)系统环境:paddlecloud V100集群,默认环境

训练信息:单机多卡,代码中使用了fleet、recompute、amp
问题描述:基于ERNIE2.0代码训练双塔模型(静态图),在同样的代码下和环境下,使用paddle1.8 batch size可以开到256,使用paddle2.0+后同样的batch size会报错(Cuda error(9),如下图),batch size降至128才能正常运行(观察运行时显存占用约16g)。

kg7wmglp

kg7wmglp1#

您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档常见问题历史IssueAI社区来寻求解答。祝您生活愉快~

Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the APIFAQGithub Issue and AI community to get the answer.Have a nice day!

iszxjhcz

iszxjhcz2#

您好,看结果是显存溢出了。在2.0的时候我们对很多op操作进行了加速操作,部分Op的显存占用有升高,因此出现了这个问题。

ibrsph3r

ibrsph3r3#

2.0升级后recompute的config关键字有变化,参考link

rqmkfv5c

rqmkfv5c4#

设置export FLAGS_allocator_strategy=auto_growth试一下?

相关问题