当前环境
docker run --rm --runtime nvidia --gpus all --name vllm-qwen72b -v ~/.cache/huggingface:/root/.cache/huggingface \
-v /data1/Download/models/Qwen-72B-Chat-Int4:/data/shared/Qwen/Qwen-Chat -p 8901:8000 --ipc=host \
vllm/vllm-openai:latest --model /data/shared/Qwen/Qwen-Chat --max-model-len 6400 --trust-remote-code --tensor-parallel-size 2 \
--gpu-memory-utilization 0.9 --served-model-name qwen72b --api-key "xxxx"
🐛 描述问题
在Docker环境中运行模型时,我遇到了一个问题。模型是Qwen-72B,对话无法正常结束。
7条答案
按热度按时间kxxlusnw1#
使用vllm+chatglm3+oneapi+fastgpt时也存在同样的问题。不确定是哪个部分出了问题。
m0rkklqb2#
应该是vllm的问题,目前还没找到解决办法,有办法了麻烦踢我一下
4xy9mtcn3#
我也是,看到有个类似的解决办法,但不知道在vllm中怎么修改:https://zhuanlan.zhihu.com/p/695477673
yzckvree4#
我的问题已经解决了。我是通过使用oneapi接入了fastgpt,然后在fastgpt的配置文件中添加了结束参数
| im_end |
,这样就解决了问题。nfeuvbwi5#
你好,我不太明白你的问题。你是在使用oneapi接入fastgpt吗?如果是的话,你可以在fastgpt的配置文件中加上结束的参数 | im_end |来解决问题。
gjmwrych6#
"defaultConfig":{"stop": "<|im_end|>"}
yws3nbqq7#
我是在请求时通过添加停止符的tokenId来解决的。