你好,我在A100设备上为Yi-6B模型测试了mii和vllm,似乎vllm(5.12s/query)比mii(6.08s/query)更快。我需要设置什么配置吗?
以下是我的设置:
- 输入长度 = 1536
- 输出长度 = 512
- 批量大小 = 1
- 测试集大小:100
- 预热阶段不计入时间成本统计。
模型加载器如下:
model_path = "/mnt/bn/multimodel/models/official/Yi-6B-Chat/"
pipe = mii.pipeline(model_path, torch_dist_port=12345)
resp = pipe([prompt], min_new_tokens=512, max_new_tokens=512)
1条答案
按热度按时间1tuwyuhd1#
@littletomatodonkey - mii.pipeline仅用于快速启动,因此性能可能不是最优的。
为了获得更好的性能,请尝试使用mii.serve API创建持久部署。