Aim tensorboard tracker停止在一定数量的epoch后记录指标,

prdp8dxp  于 23天前  发布在  其他
关注(0)|答案(2)|浏览(16)

❓tensorboard在一定数量的epoch后停止记录指标

我正在使用tensorboard logger来跟踪我的指标。在UI运行中显示为进行中,但在1-2个epoch之后,指标没有更新。我正在使用远程服务器存储我的日志。

train_process = subprocess.Popen(['python3', '/root/workspace/mmdetection/tools/train.py', config_file, "--work-dir", work_dir])
     time.sleep(60)
     run = AimRun(repo="aim://192.168.9.14:53800", sync_tensorboard_log_dir=work_dir, system_tracking_interval=10, force_resume=True, experiment='my-mmdetection-trial')
     train_process.wait()

有人遇到过类似的问题吗?我该如何解决这个问题?

x4shl7ld

x4shl7ld1#

你好,@aswanthkrishna,终端中是否有任何痕迹?也许有一些异常或其他情况?我们如何重现这个问题?

uelo1irk

uelo1irk2#

@SGevorg 我在日志中找不到任何特别的东西
我正在运行这个 mmdetection tutorial
这个创建了以下格式的TensorBoard日志

./work_dirs/20240621_150242/vis_data
│
├── 20240621_150242.json
├── config.py
├── events.out.tfevents.1718982168.gpu02.2571.0
└── scalars.json

我正在使用基于教程的AIM TensorBoard跟踪器,使用以下代码

from aim.ext.tensorboard_tracker import Run as AimRun
work_dir="./work_dirs"
run = AimRun(sync_tensorboard_log_dir=work_dir, system_tracking_interval=10, force_resume=True, experiment='my-mmdetection-trial')

相关问题