DeepSpeed-MII Performance with vllm

1rhkuytd  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(64)

你好,我在A100设备上为Yi-6B模型测试了mii和vllm,似乎vllm(5.12s/query)比mii(6.08s/query)更快。我需要设置什么配置吗?
以下是我的设置:

  • 输入长度 = 1536
  • 输出长度 = 512
  • 批量大小 = 1
  • 测试集大小:100
  • 预热阶段不计入时间成本统计。

模型加载器如下:

model_path = "/mnt/bn/multimodel/models/official/Yi-6B-Chat/"
    pipe = mii.pipeline(model_path, torch_dist_port=12345)

    resp = pipe([prompt], min_new_tokens=512, max_new_tokens=512)
1tuwyuhd

1tuwyuhd1#

@littletomatodonkey - mii.pipeline仅用于快速启动,因此性能可能不是最优的。
为了获得更好的性能,请尝试使用mii.serve API创建持久部署。

相关问题