[Bug]: 使用VLLM docker加载mistral和gemma模型时出错

368yc8dk  于 6个月前  发布在  Docker
关注(0)|答案(9)|浏览(86)

当前环境为Ubuntu 22.04.3 LTS(x86_64),使用的是PyTorch 1.10.12,CUDA版本为11.5.119,ROCM版本未提供。

在运行Mistral模型时,出现了以下问题:

  • 在GPU 0上,Mistral模型的推理速度较慢。
  • 在GPU 1上,Mistral模型的推理速度正常。

经过分析,发现问题可能与NUMA节点设置有关。建议尝试调整NUMA节点设置,以提高Mistral模型在GPU 0上的推理速度。
从错误信息来看,问题出在模型名称 "gemma" 上。错误提示 KeyError: 'gemma',意味着在预训练模型的配置中找不到名为 "gemma" 的模型。请检查您的代码中是否正确指定了模型名称。

ni65a41a

ni65a41a1#

这是因为Docker内部的transformers版本吗?

prdp8dxp

prdp8dxp2#

在遇到这个问题后,我再次使用pip升级了transformers到新版本,但不幸的是错误仍然存在,我不确定如何解决这个问题。如果Transformer版本与docker有关,那么您建议使用哪个版本?

wgeznvg7

wgeznvg74#

关于 Mistral 模型,如何在运行 Docker 容器时指定 mig UUID?以便指定它应该在第二个 GPU 上运行?那么使用 VLLM 进行异步操作的有效方法是什么?我尝试了 FastAPI 方法,但它会报错。你之前建议我使用 Docker 和 openai chat template,现在我已经尝试了 Docker vllm,但仍然报错。那么如何正确处理异步请求?

wgmfuz8q

wgmfuz8q5#

很有可能你的Docker镜像不是最新的。你需要检查你的Docker仓库,确保它拉取了最新的镜像。

bmvo0sr5

bmvo0sr56#

谢谢,
我使用了vllm/vllm-openai:latest。哪个版本是稳定的?另外,当我运行Docker容器时,如何指定mig UUID?这样我就可以指定它应该在第二个GPU上运行吗?

jljoyd4f

jljoyd4f7#

我并不是MIG方面的Maven。如果你选择使用MIG,一般建议是联系管理员了解使用方法,或者在网络上搜索类似https://codeyarns.com/tech/2020-12-15-how-to-use-mig.html的内容。

tktrz96b

tktrz96b8#

Docker镜像的最新版本是docker pull vllm/vllm-openai:v0.5.2

fjaof16o

fjaof16o9#

感谢您的回复,
同时,如果我们通过vllm docker和openai聊天端点进行操作,它可以处理多少个请求?

相关问题