Baichuan-7B [Question] DeepSpeed Zero3 save_checkpoint() got empty mode_states files

a6b3iqyw  于 5个月前  发布在  Go
关注(0)|答案(3)|浏览(168)

必需的先决条件

问题

你好,
我使用这段代码继续对模型进行预训练,并使用zero3进行模型训练。但是我发现我的检查点文件 zero_pp_rank_*_mp_rank_00_model_states.pt 是空的,这个文件只有模型参数的名称和形状,没有权重。你是否遇到过这个问题,以及如何解决?
谢谢!

检查清单

  • 我已提供所有相关且必要的信息。
  • 我已为这个问题选择了一个合适的标题。
slmsl1lt

slmsl1lt1#

我遇到了相同的问题,我的解决方案是使用deepspeed zero2而不是zero3。

20jt8wwn

20jt8wwn2#

我的解决方案是自己保存检查点,或者你可以使用$x_{1e0f1}^{x}$。

qf9go6mv

qf9go6mv3#

我的解决方案是自己保存检查点,或者你可以使用 zero_to_fp32
@mynewstart 我发现我转换后的 ckpt global_step_xxx 只包含有意义的 *optim_states.pt ,但只有空的 *model_states.pt 。关于这个问题有什么线索吗?谢谢。

相关问题