[用法]:如何通过运行benchmark_throughput来测试VLLM吞吐量时更改批处理大小 ```markdown [用法]:如何通过运行benchmark_throughput来测试VLLM吞吐量时更改批处理大小 ```

2nbm6dog 于 6个月前发布在其他

关注(0)|答案(4)|浏览(44)

你当前的环境

The output of `python collect_env.py`

你希望如何使用vllm

我想运行一个特定模型的推理。我不知道如何将其与vllm集成。

vllm

来源：https://github.com/vllm-project/vllm/issues/4783

4条答案

按热度按时间

xjreopfe1#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")

赞(0）回复(0）举报 6个月前

qjp7pelc2#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")
谢谢！
我修改了"--num-prompt",似乎也起作用了。
顺便问一下，你知道如何使用vllm测试第一个标记的时间吗？谢谢！

赞(0）回复(0）举报 6个月前

7lrncoxx3#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")
谢谢！我修改了"--num-prompt",似乎也起作用了。顺便问一下，你知道如何用vllm测试第一个标记的时间吗？谢谢！
好问题，我没有尝试过。如果你有解决方案，请告诉我。非常感谢。

赞(0）回复(0）举报 6个月前

s2j5cfk04#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")
谢谢！我更改了"--num-prompt",似乎也起作用了。顺便问一下，你知道如何使用vllm测试第一个标记的时间吗？谢谢！
使用benchmark_serving.py可以得到结果

赞(0）回复(0）举报 6个月前

我来回答

[用法]:如何通过运行benchmark_throughput来测试VLLM吞吐量时更改批处理大小 ```markdown [用法]:如何通过运行benchmark_throughput来测试VLLM吞吐量时更改批处理大小 ```

你希望如何使用vllm

4条答案

相关问题

热门标签

最新问答