必需的先决条件
- 我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
- 我已在 Issue Tracker 和 Discussions 中搜索,以确保这个问题尚未被报告过。如果已经报告过了,请在那里加1或留言。
- 在提出问题之前,请先考虑在 Discussion 中询问。
问题
你好,
我使用这段代码继续对模型进行预训练,并使用zero3进行模型训练。但是我发现我的检查点文件 zero_pp_rank_*_mp_rank_00_model_states.pt 是空的,这个文件只有模型参数的名称和形状,没有权重。你是否遇到过这个问题,以及如何解决?
谢谢!
检查清单
- 我已提供所有相关且必要的信息。
- 我已为这个问题选择了一个合适的标题。
3条答案
按热度按时间slmsl1lt1#
我遇到了相同的问题,我的解决方案是使用deepspeed zero2而不是zero3。
20jt8wwn2#
我的解决方案是自己保存检查点,或者你可以使用$x_{1e0f1}^{x}$。
qf9go6mv3#
我的解决方案是自己保存检查点,或者你可以使用 zero_to_fp32。
@mynewstart 我发现我转换后的 ckpt
global_step_xxx
只包含有意义的*optim_states.pt
,但只有空的*model_states.pt
。关于这个问题有什么线索吗?谢谢。