bounty将在4天后过期。回答此问题可获得+50的声望奖励。L_Jay正在寻找来自知名来源的答案:我已尝试在Azure ML Studio中增加计算示例,但错误仍然存在。没有VM,仅使用计算示例和来自DevOps端的Azure代理来启动培训作业。
我需要一个解决方案来缓解磁盘已满错误,以便在培训作业中使用Azure ML Studio中的自定义环境。
我在使用从Azure DevOps启动的Azure ML SDK运行模型培训作业时遇到磁盘已满错误。我在Azure ML工作区中创建了自定义环境并使用了它。
我正在Azure DevOps中使用Azure CLI任务启动这些培训作业。如何解决磁盘已满问题?
DevOps培训任务中显示的错误消息:
"error": {
"code": "UserError",
"message": "{\"Compliant\":\"Disk full while running job. Please consider reducing amount of data accessed, or upgrading VM SKU. Total space: 14045 MB, available space: 1103 MB.\"}\n{\n \"code\": \"DiskFullError\",\n \"target\": \"\",\n \"category\": \"UserError\",\n \"error_details\": []\n}",
"messageParameters": {},
"details": []
},
培训作业的.runconfig文件:
framework: Python
script: cnn_training.py
communicator: None
autoPrepareEnvironment: true
maxRunDurationSeconds:
nodeCount: 1
environment:
name: cnn_training
python:
userManagedDependencies: true
interpreterPath: python
docker:
enabled: true
baseImage: 54646eeace594cf19143dad3c7f31661.azurecr.io/azureml/azureml_b17300b63a1c2abb86b2e774835153ee
sharedVolumes: true
gpuSupport: false
shmSize: 2g
arguments: []
history:
outputCollection: true
snapshotProject: true
directoriesToWatch:
- logs
dataReferences:
workspaceblobstore:
dataStoreName: workspaceblobstore
pathOnDataStore: dataname
mode: download
overwrite: true
pathOnCompute:
是否需要针对磁盘已满问题进行其他配置?是否需要在.runconfig文件中进行任何更改?
1条答案
按热度按时间whlutmcx1#
根据您下面的错误消息,我们假设您的问题是由于您的计算集群或VM SKU缺少存储空间而导致的。
Disk full while running job. Please consider reducing amount of data accessed, or upgrading VM SKU. Total space: 14045 MB, available space: 1103 MB.
我建议你可以考虑下面的三个步骤,然后再测试一次。
1.清除存储缓存、
2.升级群集存储大小
3.优化您的机器学习资源规模
2010年11月更新
您好L_Jay您可以参考Azure Machine Learning来升级您的订阅以获得更好的性能示例。