系统信息
你好,
当我按照 this 教程部署 Falcon-40b-instruct 作为 SageMaker 端点时,一切正常。但是当我尝试将容器作为 serial inference pipeline 的一部分部署时,我遇到了以下错误:
#033[2m2023-06-16T12:57:41.398047Z#033[0m #033[31mERROR#033[0m #033[2mtext_generation_launcher#033[0m#033[2m:#033[0m Shard 3 failed to start:
[W socket.cpp:601] [c10d] The client socket has failed to connect to [localhost]:29500 (errno: 99 - Cannot assign requested address).
You are using a model of type RefinedWeb to instantiate a model of type . This is not supported for all configurations of models and can yield errors.
#033[2m2023-06-16T12:57:41.398097Z#033[0m #033[32m INFO#033[0m #033[2mtext_generation_launcher#033[0m#033[2m:#033[0m Shutting down shards
#033[2m2023-06-16T12:57:41.432637Z#033[0m #033[32m INFO#033[0m #033[2mtext_generation_launcher#033[0m#033[2m:#033[0m Shard 2 terminated
#033[2m2023-06-16T12:57:42.131047Z#033[0m #033[32m INFO#033[0m #033[2mtext_generation_launcher#033[0m#033[2m:#033[0m Shard 0 terminated
Error: ShardCannotStart
有人知道这是什么原因吗?如何解决?
谢谢!
信息
- Docker
- CLI 直接使用
任务
- 一个官方支持的命令
- 我自己的修改
重现
- 按照本手册中的步骤操作: https://samuelabiodun.medium.com/how-to-deploy-a-pytorch-model-on-sagemaker-aa9a38a277b6
- 将模型部署为串行推理管道的一部分。 https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html
- 部署失败,出现了上述错误。
预期行为
成功部署。
5条答案
按热度按时间2eafrhcq1#
客户端套接字无法连接到[localhost]:29500(错误号:99 - 无法分配请求的地址)
这似乎是问题所在。例如,是否已经有东西在那个端口上运行?
cu6pst1q2#
是的,这是可能的。有没有办法覆盖默认的端口值(29500)?
0md85ypi3#
是的:使用
--master-port
参数或MASTER_PORT
环境变量。lnxxn5zx4#
感谢。我解决了端口问题,但是分片仍然无法启动,并且在日志中仍然看到以下消息:
jhiyze9q5#
这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。