tensorflow 对象检测分类/恢复了一个检查点(例如tf.train.Checkpoint.restore或tf.keras.Model.load_weights)

xt0899hw  于 2022-12-04  发布在  其他
关注(0)|答案(3)|浏览(178)

我尝试在colab中使用对象检测进行分类。我正在使用“ssd_resnet101_v1_fpn_640x640_coco17_tpu-8.config“,当我开始训练时,我收到错误。训练=
第一个

rslzwgfq

rslzwgfq1#

我正在处理同样的错误。我假设训练在你得到上面引用的错误时停止了。如果是这样,你可能想检查你的文件夹路径。
当我发现我试图创建一个新模型,而TF正在查找包含我之前模型检查点的'model_dir'文件夹时,我能够自己消除这个错误。因为我的num_steps不大于之前模型中使用的num_steps,TF实际上停止了训练,因为num_steps已经完成。
通过将model_dir更改为一个全新的文件夹,我能够克服这个错误并开始训练一个新的模型。

xwmevbvl

xwmevbvl2#

如果有人试图继续他们的培训,@GbG提到的解决方案是更新pipeline.config中的num_steps值:
原件:

num_steps: 25000
  optimizer {
    momentum_optimizer: {
      learning_rate: {
        cosine_decay_learning_rate {
          learning_rate_base: .04
          total_steps: 25000

更新日期:

num_steps: 50000
  optimizer {
    momentum_optimizer: {
      learning_rate: {
        cosine_decay_learning_rate {
          learning_rate_base: .04
          total_steps: 50000
6qqygrtg

6qqygrtg3#

这意味着您在配置文件中训练了足够的num_steps

相关问题