我尝试在colab中使用对象检测进行分类。我正在使用“ssd_resnet101_v1_fpn_640x640_coco17_tpu-8.config“,当我开始训练时,我收到错误。训练=第一个
rslzwgfq1#
我正在处理同样的错误。我假设训练在你得到上面引用的错误时停止了。如果是这样,你可能想检查你的文件夹路径。当我发现我试图创建一个新模型,而TF正在查找包含我之前模型检查点的'model_dir'文件夹时,我能够自己消除这个错误。因为我的num_steps不大于之前模型中使用的num_steps,TF实际上停止了训练,因为num_steps已经完成。通过将model_dir更改为一个全新的文件夹,我能够克服这个错误并开始训练一个新的模型。
xwmevbvl2#
如果有人试图继续他们的培训,@GbG提到的解决方案是更新pipeline.config中的num_steps值:原件:
pipeline.config
num_steps
num_steps: 25000 optimizer { momentum_optimizer: { learning_rate: { cosine_decay_learning_rate { learning_rate_base: .04 total_steps: 25000
更新日期:
num_steps: 50000 optimizer { momentum_optimizer: { learning_rate: { cosine_decay_learning_rate { learning_rate_base: .04 total_steps: 50000
6qqygrtg3#
这意味着您在配置文件中训练了足够的num_steps
3条答案
按热度按时间rslzwgfq1#
我正在处理同样的错误。我假设训练在你得到上面引用的错误时停止了。如果是这样,你可能想检查你的文件夹路径。
当我发现我试图创建一个新模型,而TF正在查找包含我之前模型检查点的'model_dir'文件夹时,我能够自己消除这个错误。因为我的num_steps不大于之前模型中使用的num_steps,TF实际上停止了训练,因为num_steps已经完成。
通过将model_dir更改为一个全新的文件夹,我能够克服这个错误并开始训练一个新的模型。
xwmevbvl2#
如果有人试图继续他们的培训,@GbG提到的解决方案是更新
pipeline.config
中的num_steps
值:原件:
更新日期:
6qqygrtg3#
这意味着您在配置文件中训练了足够的num_steps