我们能否为MoE实现Maven并行策略,以充分挖掘稀疏激活属性?理想情况下,MoE应该只使用与激活参数相对应的计算资源,但当前的实现方式与密集模型使用的计算资源相同。Maven并行性与跨多个GPU的数据并行性非常相似,唯一的区别是Maven位于不同的GPU上,并且在MoE层的前向传播过程中对令牌进行排列,如图所示。我可以协助实现MoE层,但我好奇如何使用vLLM实现数据并行?
(来自FastMoE的图表)
qv7cva1a1#
你对这个功能做了什么工作吗?
ojsjcaue2#
有任何更新吗?
2条答案
按热度按时间qv7cva1a1#
你对这个功能做了什么工作吗?
ojsjcaue2#
有任何更新吗?