由于最新的fastgen在MII中的原则包括连续批处理,我们应该有选择地调整MII管道中的批处理大小。但是在文档中没有找到,从代码中仍然很难找到它的参数,因为它们包含在一个以config结尾的字典中。所以有人能告诉我我们应该使用什么来调用批处理推理吗?或者为什么它没有被部署?
此外,我在MII管道中也没有找到offload,然而从DeepSpeed来看,它肯定可以在那里找到。他们来自另一个问题,我们可以看到答案,我们可以在那里调整它,但我不知道是否还有其他参数需要调整以调用offload。有时候没有offload,在小GPU上推理大模型是很困难的,而批处理推理可以加速推理过程。所以如果有人能帮我找到答案,我会非常感激。
感谢您的时间和新年快乐!
2条答案
按热度按时间fsi0uk1n1#
你好,Kevin-shihello-world。最新的MII不包括卸载功能。我们仍然支持使用MII-Legacy来实现这个功能。对于批处理,我们没有向用户暴露一个参数来定义批处理大小。管道会一次性将所有提供的提示放到推理引擎上。
我会和@tohtana讨论如何可能暴露一个
batch_size
参数。57hvy0tb2#
感谢您的时间 @mrwyattii ,然而MII-Legacy中的一个可能会更慢,但是它能有多慢呢?您能给我们展示一下吗?感谢您的时间并祝您新年快乐。