- 在使用GPU进行OCR模型部署服务时,预测几次后显卡会卡死,不会报错。此时nvidia-smi已经监控不到GPU资源,机器会重启。
- 在使用GPU训练模型时,训练过程中显卡也会卡死,不会报错。此时nvidia-smi已经监控不到GPU资源,机器也会重启。重启后,有时候显卡会概率性掉。需要再次重启。
- 以上操作监控发现显卡利用率并未达到极致,但是显卡功耗会报ERR!的错误。
测试过的解决办法:更换过显卡驱动,更换过paddlepaddle-gpu和paddlehub,包括重装过centos系统都未解决该问题。
希望大佬解答该问题!
2条答案
按热度按时间a64a0gku1#
请问您是否尝试过使用2.0版本的PaddleHub和PaddlePaddle?
bqucvtff2#
未尝试过2.0版本的,试过1.7 ,1.8 的 ,2.0不会导致目前的模型不兼容吗?