亲爱的vLLM维护者@WoosukKwon和@zhuohan123(@Yard1),
DeepSpeed已经发布了其服务框架,声称比vLLM更快。主要的加速来自于Dynamic SplitFuse技术,它实现了以下功能:
- 长提示被分解成更小的块,并在多个前向传递(迭代)中进行调度,只有最后的传递执行任何生成操作。
- 短提示将被组合以恰好填满目标令牌预算。即使是短提示也可以分解以确保预算精确满足,并且前向大小对齐良好。
代码:https://github.com/microsoft/DeepSpeed-MII
背景:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen
Llama 13B (1x A100-80GB):
Llama 70B (4x A100x80GB with TP):
6条答案
按热度按时间y0u0uwnf1#
LGTM
4nkexdtk2#
你好,现在有什么进展吗?
2admgd593#
Do we have an ETA? 😊
qvtsj1bj4#
你好@WoosukKwon@zhuohan123
vllm中缺少分块预填充实现是一个主要的障碍。关于分块预填充实现的任何时间线或定期沟通进展情况都会非常有帮助,以便进行未来的规划。
g2ieeal75#
保持批次长度一致确实有助于 #2357
mrfwxfqh6#
看起来有人已经开始着手处理这个问题了:#3106