vllm [特性]:集成flash-infer FP8 KV缓存分块预填充(追加注意力)

mtb9vblg 于 5个月前发布在其他

关注(0)|答案(3)|浏览(75)

🚀 功能、动机和宣传

来自新的Flash Infer发布 https://github.com/flashinfer-ai/flashinfer/releases/tag/v0.1.4
cc @comaniac

其他上下文

后续： #7208, #7185

vllm

来源：https://github.com/vllm-project/vllm/issues/7450

3条答案

按热度按时间

kupeojn61#

实际上，@comaniac,我注意到有明确的Assert禁止使用flash infer内核进行分块预填充
vllm/vllm/attention/backends/flashinfer.py
第195行
| | # 目前不支持分块预填充 |
如在：flashinfer-ai/flashinfer#392(评论)中指出的那样
我的理解是，这是因为默认情况下，vLLM通过两个单独的内核调用运行预填充和解码(就像flash-attention的情况一样，参见：#6052),这也适用于flash-infer吗？
也许第一步是将flash infer内核统一为使用单个内核，类似于#6052,或者至少澄清在什么情况下可以运行flash-infer内核进行分块预填充，因为根据@yzh119在flashinfer-ai/flashinfer#392中的评论，这应该已经得到了flash-infer的支持。