我刚到Rapids,很少有使用conda的好经验。所以我尝试使用集装箱版本。我刚到Docker,未知因素的组合让我无法理清头绪。
我有一个Ubuntu 18.04服务器,
# uname -v
#30~18.04.1-Ubuntu SMP Fri Jan 17 06:14:09 UTC 2020
我在上面安装了新版Docker
# apt-get install docker docker-ce docker-ce-cli containerd.io
# docker --version
Docker version 19.03.8, build afacb8b7f0
此计算机安装了cuda v10.2
# nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2019 NVIDIA Corporation
Built on Wed_Oct_23_19:24:38_PDT_2019
Cuda compilation tools, release 10.2, V10.2.89
以及Python v3.6.9
# python3 --version
Python 3.6.9
如NVIDIA容器工具包快速入门部分所示,我将nvidia-docker列表安装到/etc/apt/sources. list. d/
# curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
# curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu18.04/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
用ubuntu18.04
显式替换$distribution,因为这是Linux Mint 19.3的Ubuntu等价物。
按照RAPIDS - Open GPU Data Science中的启动容器和笔记本服务器说明,我调用了0.13-cuda10.2-runtime-ubuntu18.04-py3.6运行时。
# docker pull rapidsai/rapidsai:0.13-cuda10.2-runtime-ubuntu18.04-py3.6
很长一段时间,几GB之后,一切似乎都很好。(没有警告或错误信息。)此外,看起来图像是注册到Docker的。
# docker images -a
REPOSITORY TAG IMAGE ID CREATED SIZE
rapidsai/rapidsai 0.13-cuda10.2-runtime-ubuntu18.04-py3.6 c7440af853b5 4 days ago 9.26GB
rapidsai/rapidsai cuda10.2-runtime-ubuntu18.04-py3.6 c7440af853b5 4 days ago 9.26GB
但是,我接下来尝试启动笔记本服务器:
# docker run --gpus all --rm -it -p 8888:8888 -p 8787:8787 -p 8786:8786 \
rapidsai/rapidsai:cuda10.0-runtime-ubuntu18.04-py3.6
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
这似乎令人惊讶,因为检测到两个GTX 1080 Ti GPU
# nvidia-smi
Fri May 8 16:41:57 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01 Driver Version: 440.33.01 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... On | 00000000:08:00.0 Off | N/A |
| 21% 38C P8 10W / 250W | 1MiB / 11178MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX 108... On | 00000000:42:00.0 Off | N/A |
| 23% 42C P8 10W / 250W | 1MiB / 11177MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
把东西收拾好之后
# docker system prune -a
# apt-get purge docker docker-engine docker.io containerd runc
我重新安装了docker,再次调出rapidsai的镜像,结果没有变化。
是否与NVIDIA驱动程序版本冲突:440.33.01?
有什么建议吗?
4条答案
按热度按时间bihw5rsg1#
感谢您试用急流。您是否碰巧安装了
nvidia-container-toolkit
?https://github.com/NVIDIA/nvidia-docker#quickstart。我在您的步骤中没有看到它,缺少它可能会导致该问题。它在https://rapids.ai/start.html的先决条件中8oomwypt2#
我只是按照这个pdf中的步骤;而且效果很好
要卸载以前的nvidia-docker软件包,请发出以下命令:
要安装NVIDIA-GPU Docker Container Toolkit,您首先需要添加软件包存储库:
然后使用最新官方CUDA映像验证nvidia-smi安装:
6ss1mwsb3#
从NVIDIA CUDA/WSL 2文档:
使用Docker安装脚本为您选择的WSL 2 Linux发行版安装Docker。请注意,NVIDIA Container Toolkit尚不支持Docker Desktop WSL 2后端。
aamkag614#
试试这个