azure 数据块群集已终止,原因:云提供程序启动失败

camsedfj  于 2022-12-24  发布在  其他
关注(0)|答案(3)|浏览(117)

我使用的Azure Databricks具有使用vnet注入的自定义配置,我无法在我的工作区中启动群集。给出的错误消息 * 未记录在Microsoft或databricks文档中 *,这意味着我无法诊断群集未启动的原因。我复制了以下错误消息:

Instance ID: [redacted]

Azure error message: 
Instance bootstrap failed.
Failure message: Cloud Provider Failure. Azure VM Extension stuck on transitioning state. Please try again later.
VM extension code: ProvisioningState/transitioning
instanceId: InstanceId([redacted])
workerEnv: workerenv-6662162805421143
Additional details (may be truncated): Enable in progress

虽然它说“请稍后再试”,我已经尝试了一整天,并得到同样的消息,导致我认为这个错误消息是不是描述性的,有其他事情真的发生了。
有人知道这个问题可能是什么吗?

63lcw9qa

63lcw9qa1#

这似乎是从数据块示例到中央数据块服务器的连接问题。我们的vnet注入设置似乎不足以将请求路由到正确的位置。* 最终,通过将数据块示例更改为使用vnet对等来修复该问题(具有自己的自定义虚拟网络),而不是虚拟网络注入 *。这样,databricks示例就能够与另一个vnet中的资源通信,同时仍然能够启动集群。
这满足了我们的项目要求,但有时可能不足以满足项目要求。希望Azure数据块团队至少记录此问题,以便将来减少混乱。
我还尝试为数据块创建自定义用户定义的路由,但这并没有解决这个问题。

blmhpbnm

blmhpbnm2#

云提供程序失败。Azure VM扩展卡在转换状态。请稍后重试。
这是云提供程序问题(Azure)。在Azure上,Databricks使用Azure VM扩展服务执行引导步骤。此错误意味着Azure扩展服务无法完成扩展并将结果发送回我们。
这是一个众所周知的Azure扩展问题。但它是暂时的。重试启动群集将修复此问题。

im9ewurl

im9ewurl3#

我也遇到了这个错误。但是:我无法尝试重新启动计算机,因为错误被传递回Terraform代理,并且在Terraform应用失败后查看Databricks工作空间时,那里没有计算集群。
这有点烦人,我不认为Vnet对等解决了我的问题,因为我需要一个静态IP的数据库集群。
据我所知,这需要Vnet注入和与容器子网关联的NAT网关。
不确定此请求的正确格式是什么。这不是一个新问题,我不希望它在评论中消失。Databricks/Azure的某个人能解决这个问题吗?Databricks文档是 * 错误的 *,所有关于Vnet注入的大教程都不起作用,这很烦人。
群集的静态IP实际上应该是任何企业环境中的默认值...更不用说专用子网中的外部存储了...

相关问题