azure 数据块在工作流/作业中使用服务主体+远程存储库

pu3pd22g  于 2023-03-31  发布在  其他
关注(0)|答案(1)|浏览(127)

我想创建一个databricks作业,其中所有者被设置为服务主体。主要原因是,如果人们离开公司,没有什么可以改变的,也没有由于PAT失败或类似的工作中断。问题是这样做时,作业总是无法访问设置为Azure DevOps远程存储库的代码。问题和错误消息表明服务主体无法克隆git存储库。
我该怎么做呢?
我的理解是,我可以从数据块中使用git-credentials API,让服务主体使用我的一个PAT令牌来访问git。https://docs.databricks.com/dev-tools/api/latest/gitcredentials.html#operation/create-git-credential
我知道一个解决方案,那就是构建wheel并发布它,这样“ checkout 代码”就不是通过作业而是通过CI/CD预先完成的。但是由于远程repos非常简单,我们也希望将该功能与服务主体一起使用。
有没有人使用它并使其工作?也许还有允许服务主体访问Azure devops本身的选项,但我被告知这还不可能。

zpgglvta

zpgglvta1#

你正在正确的方法上做,也许只是错过了一些步骤。工作流程如下:

  • 生成ADO PAT以访问存储库
  • 为服务主体生成AAD令牌-有关详细信息,请参阅Azure Databricks文档。
  • 使用生成的AAD令牌使用Git Credentials API设置ADO PAT。

相关问题