我试着在亚马逊sagemaker studio上训练pytorch模型。
当我使用EC2进行培训时,它工作正常:
estimator = PyTorch(entry_point='train_script.py',
role=role,
sagemaker_session = sess,
train_instance_count=1,
train_instance_type='ml.c5.xlarge',
framework_version='1.4.0',
source_dir='.',
git_config=git_config,
)
estimator.fit({'stockdata': data_path})
且它在经典Sagemaker笔记本(非工作室)中以本地模式工作,其中:
estimator = PyTorch(entry_point='train_script.py',
role=role,
train_instance_count=1,
train_instance_type='local',
framework_version='1.4.0',
source_dir='.',
git_config=git_config,
)
estimator.fit({'stockdata': data_path})
但是当我在sagemaker studio上使用相同的代码(train_instance_type='local')时,它不起作用,并且出现以下错误:没有这样的文件或目录:“ Docker ”:“ Docker ”
我尝试使用pip install安装docker,但如果在终端中使用,则找不到docker命令
2条答案
按热度按时间hs1ihplo1#
这表明查找Docker服务时出现问题。
默认情况下,Docker没有安装在SageMaker Studio中(确认github票证响应)。
inb24sb22#
为一个近2年的老问题添加更多信息。
SageMaker Studio本身并不支持
local mode
。Studio应用本身就是docker容器,因此如果要构建和运行docker容器,它们需要privileged
访问权限。作为一种替代解决方案,您可以在EC2示例上创建一个远程Docker主机,并在Studio App上设置Docker。这涉及到相当多的网络和包安装,但该解决方案将使您能够使用完整的Docker功能。此外,自SageMaker Python SDK
2.80.0
版本起,当您使用远程Docker主机时,它现在支持local mode
。sdocker
SageMaker Studio Docker CLI extension
(请参阅此repo)可以通过简单的两个步骤简化上述解决方案的部署(仅适用于VPCOnly
模式下的Studio Domain),并且它有一个易于遵循的示例here。**更新:**现在有一个UI扩展(请参阅repo),它可以使体验更加流畅和易于管理。