🐛 Bug
在没有互联网的计算节点上启动的部分作业在创建Aim运行时失败。根据我的作业日志,它似乎在这个线上挂了大约8-9分钟。这是一个示例错误信息:https://gist.github.com/dapatil211/5c94906c6e77b63b16e7e4ae442b6e31
重现步骤
在没有互联网的节点上运行:run = Run(repo=os.environ.get("AIM_REPO", None), experiment=project_name)
预期行为
作业不应该崩溃。
环境
- Aim版本(例如,3.0.1):3.17.3
- Python版本:3.10.2
- pip版本:21.3.1
- 操作系统(例如,Linux):Rocky Linux 8.7 (Green Obsidian)
- 其他相关信息
2条答案
按热度按时间dzhpxtsq1#
抱歉给您带来不便,@dapatil211
@alberttorosyan 您认为这可能是分段/遥测吗?
hxzsmxv22#
不用担心,我正在尝试关闭遥测并查看是否仍然存在问题。此外,我在工作日志中误读了时间间隔,它只挂起约一分钟。我还查看了日志,其中27/75个提交的任务存在此问题,22/75个因其他原因崩溃(这是我的错误),其余任务似乎运行正常。