使用paddle1.3 cuda9 P40或K40单机4卡训练resnet50模型,在频繁保存模型的时候 会出现内存泄露(表现为内存一直上涨)
模型保存代码如下:
fluid.io.save_persistables(exe, model_path + '/persistables', main_program=train_prog)
fluid.io.save_inference_model(
model_path + '/inference_mode', feeded_var_names=[feed_var_name],
target_vars=feas, executor=exe, main_program=test_prog)
运行环境为paddlecloud paddle1.3 P40或K40队列
6条答案
按热度按时间4dbbbstv1#
你好,能提供最小的复现代码么? 我想确认一下保存的结构以及频率
2q5ifsrm2#
如果把save去掉的话还会有这个现象么
7bsow1i63#
@JiabinYang 不会
zmeyuzjn4#
可以直接在paddlecloud上用它默认的paddle1.3 跑resnet50模型,k40或p40队列, 极端情况是每个minibatch保存一次模型(save_persistable和save_inference)
eoxn13cs5#
你好~ 能在hi上提供一下paddle cloud的任务么,我们复现+定位一下
unftdfkk6#
http://paddlecloud.baidu-int.com/paddle/jobDetail?jobId=job-0bb5c864239e4d32 这个任务