在AKS上安装AzureML扩展时出错

toiithl6  于 2022-11-17  发布在  其他
关注(0)|答案(1)|浏览(150)

正如标题中所述,我正在尝试将AKS群集作为Attached computes添加到我的Azure机器学习工作区。
在添加时ML studio显示的向导中

有一个install AzureML extension指南链接。
只需4个步骤:
1.准备Azure Kubernetes服务群集或Arc Kubernetes群集。
1.部署AzureML扩展。
1.将Kubernetes群集附加到Azure ML工作区。
1.使用CLI v2、SDK v2和Studio UI中的Kubernetes计算目标。
我的问题是第二步。
根据建议,我正在尝试通过客户端创建概念证明
az k8s-extension create --name <extension-name> --extension-type Microsoft.AzureML.Kubernetes --config enableTraining=True enableInference=True inferenceRouterServiceType=LoadBalancer allowInsecureConnections=True inferenceLoadBalancerHA=False --cluster-type managedClusters --cluster-name <your-AKS-cluster-name> --resource-group <your-RG-name> --scope cluster
我已经使用正确的群集名称和资源组登录了正确的订阅(我是所有者)。作为extension-name,我使用了test-ml-extension,但我一直收到此错误
(ExtensionOperationFailed) The extension operation failed with the following error: Request failed to https://management.azure.com/subscriptions/<subscription-id>/resourceGroups/<rg-name>/providers/Microsoft.ContainerService/managedclusters/<cluster-name>/extensionaddons/test-ml-extension?api-version=2021-03-01. Error code: Unauthorized. Reason: Unauthorized.{"error":{"code":"InvalidAuthenticationToken","message":"The received access token is not valid: at least one of the claims 'puid' or 'altsecid' or 'oid' should be present. If you are accessing as application please make sure service principal is properly created in the tenant."}}. Code: ExtensionOperationFailed Message: The extension operation failed with the following error: Request failed to https://management.azure.com/subscriptions/<subscription-id>/resourceGroups/<rg-name>/providers/Microsoft.ContainerService/managedclusters/<cluster-name>/extensionaddons/test-ml-extension?api-version=2021-03-01. Error code: Unauthorized. Reason: Unauthorized.{"error":{"code":"InvalidAuthenticationToken","message":"The received access token is not valid: at least one of the claims 'puid' or 'altsecid' or 'oid' should be present. If you are accessing as application please make sure service principal is properly created in the tenant."}}.
我错过了什么吗?

js81xvg6

js81xvg61#

我尝试在我的环境中重现相同的问题,结果如下

  • 我已经创建了Kubernetes集群并启动了AML工作室 *
  • 在AML中,我创建了工作区并使用AKS集群创建了计算 *

  • 已使用以下命令部署azureML扩展 *
az k8s-extension create --name Aml-extension --extension-type Microsoft.AzureML.Kubernetes --config enableTraining=True enableInference=True inferenceRouterServiceType=LoadBalancer allowInsecureConnections=True inferenceLoadBalancerHA=False --cluster-type managedClusters --cluster-name my-aks-cluster --resource-group Alldemorg --scope cluster

  • 我可以使用以下命令查看所有已部署的集群 *
az k8s-extension show --name <extension_name> --cluster-type connectedClusters --cluster-name <connected_cluster_name> --resource-group <rg_name>
  • 部署AzureML扩展后,我可以将Kubernetes集群连接到azureML工作空间。*

备注:

  • 由于以下原因,可能会发生ExtensionOperationFailed错误,*
  • 1).冻结区域,对于某些AML群集,不允许冻结少数区域 *
  • 2).请检查版本并升级到最新版本 *
  • 3).在创建扩展时,请确保AML工作区中存在该扩展的群集名称 *
  • 4).群集的服务主体在我们尝试访问的租户中不存在 *
  • 5).我们要访问的每个租户都必须同意群集,这将确保服务主体存在于其租户中,并且该服务主体具有访问权限 *

相关问题