我使用paddle inference中的tensorrt进行推理,开启enable_profile()来查看耗时情况,但是发现GpuMemcpyAsync耗时很多,我对比了其他开发者的分析结果,觉得我的结果很反常,下面是分析结果
下面是加载模型的代码
我是否没有使用到GPU,或者大部分计算的时间都花在GPU和CPU传数据上了
5n0oy7gb1#
采集一下nsys图,发下呢
1条答案
按热度按时间5n0oy7gb1#
采集一下nsys图,发下呢