你好,
我在DeepSpeed库中看到了这个拉取请求,关于将引擎快照化以便更快地加载大型模型,但我看不到任何关于这个的文档:microsoft/DeepSpeed#4664
如何使用DeepSpeed-fastergen更快地在自己的模型上保存和加载推理检查点?
04/03/24:更新了问题描述以使其更清晰
你好,
我在DeepSpeed库中看到了这个拉取请求,关于将引擎快照化以便更快地加载大型模型,但我看不到任何关于这个的文档:microsoft/DeepSpeed#4664
如何使用DeepSpeed-fastergen更快地在自己的模型上保存和加载推理检查点?
04/03/24:更新了问题描述以使其更清晰
2条答案
按热度按时间vbopmzt11#
你好,你可以参考以下文档和代码示例:
用于添加新的不受支持的模型:
要加载本地的huggingface检查点,你可以在
pipeline
中指定绝对目录路径。bn31dyow2#
感谢你发送这个信息 - 抱歉我没有解释得很好。
实际上我想知道的是从HuggingFace检查点减少自己微调模型的加载时间的方法,因为我发现使用默认模型似乎要快得多。
特别是,这个PR microsoft/DeepSpeed#4664 引用了添加*'从引擎中创建快照并从中恢复的能力'* - 因此我想知道如何保存和加载那个引擎,以便减少第一次加载非持久性管道所需的时间?