vllm 关于集成打包推理，你有什么看法？

z8dt9xmd 于 5个月前发布在其他

关注(0)|答案(3)|浏览(117)

我看到vLLM进行连续批处理，想知道我们是否可以将打包融入连续批处理。
我脑海中的想法是使用用户定义的最大序列长度和最大令牌数，我们实际上可以将输入令牌连接/打包在一起(以相同的连续方式)。
给定：

要打包的输入序列数量(amt_input_seq)
最大序列长度(max_seq_len)
要生成的最大令牌数(max_tokens)
总输入令牌数(total_input_tokens),其中total_input_tokens是从不同输入序列一起打包的总令牌数(amt_input_seq)

优化打包的条件：(amt_input_seq * max_tokens) + total_input_tokens <= max_seq_len
基本上，与其进行连续批处理和填充，我们可以进行连续批处理和打包，以充分利用gpu。你怎么看？

来源：https://github.com/vllm-project/vllm/issues/2121

3条答案

按热度按时间

旧版本的LLM确实支持连续批处理，但在v0.2.2之后，需要填充以处理不同长度的提示，请参考#1985。

赞(0）回复(0）举报 5个月前

旧的llama确实支持连续批处理中的填充，但在v0.2.2之后，需要填充以处理不同长度的提示，参考#1985。因此，如果bs=1,则无需考虑这一点。此外，对于与llama模型相关的调度，是否有任何自定义优化方向？

赞(0）回复(0）举报 5个月前

旧版本的LLM确实支持连续批处理，但在v0.2.2之后，需要填充以处理不同长度的提示，参见#1985。

我们是否有一个版本之间的基准比较？

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前