vllm Feature request: Expert parallel for MoE architectures

u4vypkhs  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(97)

我们能否为MoE实现Maven并行策略,以充分挖掘稀疏激活属性?理想情况下,MoE应该只使用与激活参数相对应的计算资源,但当前的实现方式与密集模型使用的计算资源相同。
Maven并行性与跨多个GPU的数据并行性非常相似,唯一的区别是Maven位于不同的GPU上,并且在MoE层的前向传播过程中对令牌进行排列,如图所示。
我可以协助实现MoE层,但我好奇如何使用vLLM实现数据并行?

(来自FastMoE的图表)

qv7cva1a

qv7cva1a1#

你对这个功能做了什么工作吗?

ojsjcaue

ojsjcaue2#

有任何更新吗?

相关问题