系统信息 / 系统信息
显卡:V100 80G * 2
CUDA 版本:12.2
是否使用 Docker 运行 Xinference?
- docker / docker
- pip install / 通过 pip install 安装
- installation from source / 从源码安装
版本信息 / 版本信息
inference在7.25号拉取的最新镜像
registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference latest 7ee919d45424 5 days ago 14.6GB
用以启动 xinference 的命令
docker run -d
-v /data/xinference/:/root/.xinference
-v /data/model/:/data/model
-e XINFERENCE_MODEL_SRC=modelscope
-e XINFERENCE_HOME=/data/model
-p 9997:9997
--gpus all
registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest
xinference-local -H 0.0.0.0
复现过程
加载GLM4-9B-chat模型后,使用自带的页面进行推理,发现报错
期待表现 / 期待表现
期望解决这个报错,这个报错应该是流式输出相关的
1条答案
按热度按时间o2gm4chl1#
已经在主分支修复,等本周发版再验证下。