使用来自Devops的自定义环境运行Azure ML作业时出现磁盘已满错误

wmomyfyw  于 2022-11-17  发布在  其他
关注(0)|答案(1)|浏览(139)

bounty将在4天后过期。回答此问题可获得+50的声望奖励。L_Jay正在寻找来自知名来源的答案:我已尝试在Azure ML Studio中增加计算示例,但错误仍然存在。没有VM,仅使用计算示例和来自DevOps端的Azure代理来启动培训作业。

我需要一个解决方案来缓解磁盘已满错误,以便在培训作业中使用Azure ML Studio中的自定义环境。
我在使用从Azure DevOps启动的Azure ML SDK运行模型培训作业时遇到磁盘已满错误。我在Azure ML工作区中创建了自定义环境并使用了它。
我正在Azure DevOps中使用Azure CLI任务启动这些培训作业。如何解决磁盘已满问题?
DevOps培训任务中显示的错误消息:

"error": {
        "code": "UserError",
        "message": "{\"Compliant\":\"Disk full while running job. Please consider reducing amount of data accessed, or upgrading VM SKU. Total space: 14045 MB, available space: 1103 MB.\"}\n{\n  \"code\": \"DiskFullError\",\n  \"target\": \"\",\n  \"category\": \"UserError\",\n  \"error_details\": []\n}",
        "messageParameters": {},
        "details": []
    },

培训作业的.runconfig文件:

framework: Python
 script: cnn_training.py
 communicator: None
 autoPrepareEnvironment: true
 maxRunDurationSeconds:
 nodeCount: 1
 environment:
   name: cnn_training
   python:
     userManagedDependencies: true
     interpreterPath: python
   docker:
     enabled: true
     baseImage: 54646eeace594cf19143dad3c7f31661.azurecr.io/azureml/azureml_b17300b63a1c2abb86b2e774835153ee
     sharedVolumes: true
     gpuSupport: false
     shmSize: 2g
     arguments: []
 history:
   outputCollection: true
   snapshotProject: true
   directoriesToWatch:
   - logs
 dataReferences:
   workspaceblobstore:
     dataStoreName: workspaceblobstore
     pathOnDataStore: dataname
     mode: download
     overwrite: true
     pathOnCompute:

是否需要针对磁盘已满问题进行其他配置?是否需要在.runconfig文件中进行任何更改?

whlutmcx

whlutmcx1#

根据您下面的错误消息,我们假设您的问题是由于您的计算集群或VM SKU缺少存储空间而导致的。
Disk full while running job. Please consider reducing amount of data accessed, or upgrading VM SKU. Total space: 14045 MB, available space: 1103 MB.
我建议你可以考虑下面的三个步骤,然后再测试一次。
1.清除存储缓存、
2.升级群集存储大小
3.优化您的机器学习资源规模

2010年11月更新

您好L_Jay您可以参考Azure Machine Learning来升级您的订阅以获得更好的性能示例。

相关问题