pytorch Deepspeed错误:自动调谐:已完成,运行当前ds配置

0wi1tuuw  于 2023-05-17  发布在  其他
关注(0)|答案(1)|浏览(218)

我目前正在尝试使用deepspeed训练模型。用于训练的代码是典型的Pytorch训练循环;我通过以下脚本初始化deepspeed引擎:

model_engine, optimizer, _, _ = deepspeed.initialize(
    model=model, 
    model_parameters=model.parameters(),
    config_params=train_params['DEEPSPEED_CONFIG'],
)

然后,我使用数据集model_engine.backward(loss)和model_engine.step()进行常规训练。我可以训练最多4步,它似乎,在它只是停止运行,并给我以下:

[2023-05-13 00:01:23,669] [INFO] [logging.py:96:log_dist] [Rank 0] Wrote metrics to /(local_directory)/autotuning_metric.json, /(local_directory)/autotuning_metric.json
Autotuning: done with running current ds config.

我不知道错误是什么。我监测到错误发生-它通常发生在第5或第6个model_engine.step()。怀疑内存问题,我通过在代码中调用nvidia-smi来监控内存使用情况,但没有理由怀疑它会耗尽内存-model_engine.step()之前的内存与model_engine.step()之前的所有时间大致相同。
任何帮助都非常感谢。

bf1o4zei

bf1o4zei1#

我想出了答案。问题是我在我的深度种子配置文件中启用了autotuning=True,我 * 相信 * 这可能会因为任何原因提前停止进程(据我所知,autotuning是为了找到最佳的hyperparams,所以也许它一旦完成就停止了?)

相关问题