unilm [Kosmos-G] 安装torchscale时遇到的问题

vwkv1x7d  于 2个月前  发布在  其他
关注(0)|答案(7)|浏览(52)

描述bug

在尝试安装Kosmos-G时,有一个免责声明:
确保您已经安装了Pytorch 1.13.0。
然而在

bash vl_setup.sh

上,我们得到了

pip install torchscale/

并且在包含的torchscale setup.py 中,有两个与 install_requires 相关的问题:https://github.com/microsoft/unilm/blob/master/kosmos-g/torchscale/setup.py#L20

  1. install_requires torch>=1.8 似乎与请求的 1.13.0 版本相矛盾
  2. install_requires apex 安装了错误的apex包,因为pypi apex与Nvidia apex没有任何关系
    当使用以下情况时,问题会出现:
  • 官方示例脚本
  • 我自己的修改过的脚本
68de4m5k

68de4m5k1#

翻译结果为:运行"bash runapp.sh"后出现相关错误。

jhiyze9q

jhiyze9q2#

是的,这个错误直接相关,因为它试图从pypi执行apex,这与Nvidia APEX无关。需要先卸载apex,然后安装Nvidia Apex https://github.com/NVIDIA/apex

u91tlkcl

u91tlkcl3#

你能否成功运行bash runapp.sh?
以下命令是否正确?

git clone https://github.com/NVIDIA/apex
cd apex
# if pip >= 23.1 (ref: https://pip.pypa.io/en/stable/news/#v23-1) which supports multiple `--config-settings` with the same key... 
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./
# otherwise
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --global-option="--cpp_ext" --global-option="--cuda_ext" ./
z9gpfhce

z9gpfhce4#

你好,@apolinario@fikry102 ,感谢你的关注。很抱歉,我们只测试了Docker选项的环境,你能尝试在Docker中设置环境吗?如果有任何进一步的问题,请随时联系我:D

guykilcj

guykilcj5#

如果有人能提供kosmos-g的docker镜像,那将对我大有帮助。

i1icjdpr

i1icjdpr6#

你好,@apolinario@fikry102 ,感谢你的关注。很抱歉,我们只测试了Docker选项的环境,你能尝试在Docker中设置环境吗?如果有任何进一步的问题,请随时联系我:D
sudo docker run --runtime=nvidia --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --name kosmosg --privileged=true -it -v /mnt:/mnt/ nvcr.io/nvidia/pytorch:22.10-py3 /bin/bash
它给出:

docker: Error response from daemon: Unknown runtime specified nvidia.
See 'docker run --help'.
cdmah0mi

cdmah0mi7#

你好,@fikry102。看起来你没有安装NVIDIA Docker,你可以尝试安装一下吗?也许这个方法可以解决问题。

sudo apt-get update
sudo apt-get install nvidia-container-toolkit
sudo systemctl restart docker

相关问题