tensorflow 如何检查NCCL的版本

r1zk6ea1  于 2023-01-02  发布在  其他
关注(0)|答案(2)|浏览(497)

我远程访问高性能计算节点,我不确定目录中是否安装了NVIDIA Collective Communications Library(NCCL),有没有办法检查是否安装了NCCL?

i2byvkas

i2byvkas1#

你可以试试

locate nccl| grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'

或者如果使用PyTorch:

python -c "import torch;print(torch.cuda.nccl.version())"

检查此链接Command Cheatsheet: Checking Versions of Installed Software / Libraries / Tools for Deep Learning on Ubuntu
对于容器,有时没有locate可用,可以用ldconfig -v替换它:

ldconfig -v | grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
9jyewag0

9jyewag02#

通常可以在命令行中执行此操作:

nvcc --version

您可能需要运行:

sudo apt install nvidia-cuda-toolkit

我也是。
正如另一位回答者提到的,您可以:

torch.cuda.nccl.version()

在pytorch中。复制粘贴到您的终端:

python -c "import torch;print(torch.cuda.nccl.version())"

我确信在tensorflow 中有类似的东西。

相关问题