Tensorflow Colab:未连接到运行时的连接已超时

sulc1iza  于 12个月前  发布在  其他
关注(0)|答案(1)|浏览(184)

为什么在运行一个模型2小时后,我会看到一个弹出窗口说:

Runtime disconnected

    The connection to the runtime has timed out.

                     CLOSE             RECONNECT

字符串
我已经重新启动了运行时,并认为我有12个小时来训练模型。有什么想法可以避免这种情况吗?我的另一个问题是:是否有可能使用TF或Python API找出运行时断开连接的剩余时间?

n9vozmp4

n9vozmp41#

当笔记本电脑进入“空闲”模式超过90分钟时,笔记本电脑将断开连接。这是一个非官方的数字,因为google colab对此没有官方发布。下面是google colab如何通过厚脸皮的回答来逃避责任:
Official Colab FAQ的摘录
我的代码在哪里执行?如果我关闭浏览器窗口,我的执行状态会发生什么变化?
代码在专用于您帐户的虚拟机中执行。虚拟机在空闲一段时间后会回收,并具有系统强制的最大生存期。
因此,为了避免这种情况,请保持浏览器打开,并且不要让系统睡眠超过90分钟。
这也意味着,如果你碰巧在90分钟内关闭了浏览器,那么如果你在90分钟内重新打开笔记本,你仍然可以保持所有正在运行的进程和会话变量不变!
此外,请注意,目前您可以运行笔记本电脑最多12小时。(当然是在“非空闲”状态下)。
为了回答你的第二个问题,这个“空闲状态”的东西是一个colab的东西。所以我不认为TF或Python会与它有任何关系。
因此,定期将模型保存到一个文件夹中是一个很好的做法。这样,即使在运行时断开连接的不幸事件中,您的工作也不会丢失。并且您可以简单地从最新保存的模型重新启动训练!
PS:我从一个experiment done by a fellow user得到了90分钟的数字

相关问题