遇到过类似的错误。这个错误是因为CUDA设备不可用或者忙于其他任务。你可以尝试以下方法解决这个问题:
- 确保你的计算机上安装了正确版本的NVIDIA显卡驱动程序。
- 检查是否有其他程序正在使用CUDA设备,如果有,请关闭它们。
- 尝试使用
CUDA_LAUNCH_BLOCKING=1
运行程序,这将使程序在出现CUDA内核错误时阻塞,以便你可以看到更详细的错误信息。你可以在命令行中添加这个参数,例如:
python pilot/server/llmserver.py CUDA_LAUNCH_BLOCKING=1
- 如果问题仍然存在,尝试使用具有更多GPU资源的计算机或云服务来运行程序。
6条答案
按热度按时间goqiplq21#
xmd2e60i2#
你的torch版本是哪个?也许你可以尝试升级torch版本。
but5z9lq3#
(base) [root@gpu ~]# nvcc --version
nvcc: NVIDIA (R) Cuda编译器驱动程序
版权所有 (c) 2005-2022 NVIDIA公司
创建于Mon_Oct_24_19:12:58_PDT_2022
CUDA编译工具,版本12.0,V12.0.76
构建cuda_12.0.r12.0/compiler.31968024_0
332nm8kg4#
./deviceQuery
测试结果是pass
(base) [root@gpu demo_suite]# ./bandwidthTest
[CUDA Bandwidth Test] - Starting...
Running on...
Device 0: Tesla T4
Quick Mode
CUDA错误在/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.0/demo_suite/bandwidthTest/bandwidthTest.cu的第756行,代码为801(cudaErrorNotSupported) "cudaEventCreate(&start)"
请问您使用的torch版本是多少?或许您可以尝试升级torch版本。
7z5jn7bk5#
可能CUDA出了问题,但我不知道。
66bbxpm56#
你解决了这个问题吗?我也有这个bug。