Azure数据科学虚拟机上的CNTK

yzckvree  于 2022-12-30  发布在  其他
关注(0)|答案(4)|浏览(161)

我有一个N系列Azure虚拟机(数据科学虚拟机),配备Tesla K80 GPU。NVIDIA扫描仪显示我的GPU驱动程序是最新的。当我运行CNTK Brainscript时,它显示“未找到GPU”并在CPU模式下运行。我该如何进行故障排除?

requestnodes [MPIWrapper]: using 1 out of 1 MPI nodes on a single host (1 reques
ted); we (0) are in (participating)
-------------------------------------------------------------------
Build info:

            Built time: Dec 22 2016 01:43:24
            Last modified date: Thu Dec 22 01:35:04 2016
            Build type: Release
            Build target: GPU
            With 1bit-SGD: yes
            With ASGD: yes
            Math lib: mkl
            CUDA_PATH: C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8
.0
            CUB_PATH: c:\src\cub-1.4.1
            CUDNN_PATH: C:\local\cudnn-8.0-windows10-x64-v5.1
            Build Branch: HEAD
            Build SHA1: 8e8b5ff92eff4647be5d41a5a515956907567126
            Built by svcphil on DPHAIM-24
            Build Path: C:\jenkins\workspace\CNTK-Build-Windows\Source\CNTK\

-------------------------------------------------------------------
No GPUs found

编辑:下面是NVidia_smi.exe的输出:

C:\Program Files\NVIDIA Corporation\NVSMI>.\nvidia-smi.exe
Fri Jan 13 19:00:43 2017
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 369.30                 Driver Version: 369.30                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           TCC  | 0BD1:00:00.0     Off |                  Off |
| N/A   43C    P8    27W / 149W |      0MiB / 12189MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla K80           TCC  | 5871:00:00.0     Off |                  Off |
| N/A   35C    P8    34W / 149W |      0MiB / 12189MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
hiz5n14c

hiz5n14c1#

默认情况下,Windows数据科学虚拟机不附带GPU驱动程序、CUDA等。我们有一个名为"DSVM深度学习工具包"的扩展,它添加了驱动程序、CUDA和GPU版的深度学习软件,如CNTK、Tensorflow、MxNet。
更多信息:http://aka.ms/dsvm/deeplearning
我们最近还发布了一个内置CUDA、GPU驱动程序和多个深度学习工具的Ubuntu version of DSVM,可以部署在Azure上的GPU虚拟机或纯CPU虚拟机上。

mv1qrgav

mv1qrgav2#

您是否可以运行python笔记本电脑,看看是否可以在设备设置为gpu(id)的情况下运行它们?或者从激活的CNTK python环境中,您可以尝试设置一些设备。

import cntk as C
from cntk.device import set_default_device, gpu
C.device.set_default_device(C.device.gpu(0))

这可能会为您提供一些线索,以确定是否是Brainscript特定问题。

uubf1zoe

uubf1zoe3#

在安装CUDA(我安装它是为了运行NVIDIA_SMI)之后,Python脚本和Brainscript现在可以工作了。我不应该假设Azure数据科学映像(只适用于N系列VM)已经预装了必要的NVIDIA库。:-)

nbnkbykc

nbnkbykc4#

确保已将VM配置为使用GPU。你可以通过转到Azure门户中VM的“设置”页面并查找“硬件加速”设置来检查此设置。如果设置为“无”,请尝试将其更改为“GPU”。
请确保操作系统能够识别GPU。您可以通过运行“设备管理器”实用程序并在“显示适配器”类别下查找GPU来检查此问题。如果未列出,则可能是GPU或其驱动程序有问题。
确保CNTK应用程序已编译为支持GPU。您可以通过查找“使用GPU:是”行。如果它说“否”,你将需要重建CNTK与GPU支持启用。
确保CNTK应用程序使用正确的命令行选项运行。您可能需要指定“--deviceId”选项,并将其设置为要使用的GPU的索引。您可以通过运行“nvidia-smi”实用程序找到GPU的索引。
如果这些步骤都没有帮助,您可能需要尝试重新安装GPU驱动程序或咨询CNTK社区以获得进一步的帮助。

相关问题