当前环境为Ubuntu 22.04.3 LTS(x86_64),使用的是PyTorch 1.10.12,CUDA版本为11.5.119,ROCM版本未提供。
在运行Mistral模型时,出现了以下问题:
- 在GPU 0上,Mistral模型的推理速度较慢。
- 在GPU 1上,Mistral模型的推理速度正常。
经过分析,发现问题可能与NUMA节点设置有关。建议尝试调整NUMA节点设置,以提高Mistral模型在GPU 0上的推理速度。
从错误信息来看,问题出在模型名称 "gemma" 上。错误提示 KeyError: 'gemma',意味着在预训练模型的配置中找不到名为 "gemma" 的模型。请检查您的代码中是否正确指定了模型名称。
9条答案
按热度按时间ni65a41a1#
这是因为Docker内部的transformers版本吗?
prdp8dxp2#
在遇到这个问题后,我再次使用pip升级了transformers到新版本,但不幸的是错误仍然存在,我不确定如何解决这个问题。如果Transformer版本与docker有关,那么您建议使用哪个版本?
kd3sttzy3#
可能与https://huggingface.co/google/gemma-2-27b-it/discussions/6有关。
wgeznvg74#
关于 Mistral 模型,如何在运行 Docker 容器时指定 mig UUID?以便指定它应该在第二个 GPU 上运行?那么使用 VLLM 进行异步操作的有效方法是什么?我尝试了 FastAPI 方法,但它会报错。你之前建议我使用 Docker 和 openai chat template,现在我已经尝试了 Docker vllm,但仍然报错。那么如何正确处理异步请求?
wgmfuz8q5#
很有可能你的Docker镜像不是最新的。你需要检查你的Docker仓库,确保它拉取了最新的镜像。
bmvo0sr56#
谢谢,
我使用了vllm/vllm-openai:latest。哪个版本是稳定的?另外,当我运行Docker容器时,如何指定mig UUID?这样我就可以指定它应该在第二个GPU上运行吗?
jljoyd4f7#
我并不是MIG方面的Maven。如果你选择使用MIG,一般建议是联系管理员了解使用方法,或者在网络上搜索类似https://codeyarns.com/tech/2020-12-15-how-to-use-mig.html的内容。
tktrz96b8#
Docker镜像的最新版本是
docker pull vllm/vllm-openai:v0.5.2
。fjaof16o9#
感谢您的回复,
同时,如果我们通过vllm docker和openai聊天端点进行操作,它可以处理多少个请求?