Paddle 使用Predictor预测时爆显存，使用load_inference_model就不会,

jaxagkaj 于 2021-11-30 发布在 Java

关注(0)|答案(6)|浏览(1054)

版本、环境信息：

1）PaddlePaddle版本：1.8.3
3）GPU：k40 CUDA10.1
4）系统环境：python2.7

加载Rorberta-large进行预测，batch_size设置为32，使用load_inference_model导入后进行预测，显存维持在2g左右。
使用predictor是设置config中的gpu_memory上限为8g，调用时显存会迅速拉满，然后报错挂掉。
大致的代码逻辑如下

dataset = self.processor.build_dataset(data_list, predict=True)
data_iter = DataLoader(dataset,
                       batch_size=self.batch_size,
                       shuffle=False,
                       collate_fn=batcher('decode'))
for batch in tqdm(data_iter):
    input_ids, masks = batch[:2]
    logits = self.predictor.run([PaddleTensor(input_ids), PaddleTensor(masks)])

来源：https://github.com/PaddlePaddle/Paddle/issues/25675

6条答案

按热度按时间

使用Predictor的时候尝试把batch_size调小，或者打开config->EnableMemoryOptim()显存复用选项

赞(0）回复(0）举报 2021-11-30

为什么使用load_inference_model的方式可以成功运行呢？
使用predictor相比这种方式有什么优点？

赞(0）回复(0）举报 2021-11-30

试了一下，打开EnableMemoryOptim后真的可以了！这个选项默认是关闭的，是基于什么考虑？打开之后效率会变差吗？

赞(0）回复(0）举报 2021-11-30

不是load_inference_model的问题，应该时exe.run和predictor.run的区别。predictor在预测阶段做了很多优化，可能会导致显存的增长

赞(0）回复(0）举报 2021-11-30

显存复用和模型结构有关，对于部分模型可能没有效果，所以默认时关闭的。打开该选项不影响预测性能

赞(0）回复(0）举报 2021-11-30

为啥我刚刚测了一下发现exe.run要快一点点。。。

赞(0）回复(0）举报 2021-11-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前