如何更新Azure数据工厂管道并从Repo推送更改?

cl25kdpy  于 12个月前  发布在  其他
关注(0)|答案(1)|浏览(93)

我在Azure数据工厂中手动创建了一个管道,其中包含一个databricks notebook,并且已经与github repo同步。我在本地下载repo以进行进一步更改。我还为CICD集成创建了github actions pipeline,下面是代码结构

- .github
- Adf_root
- factory
- linkedService
- pipeline
  - publish_config.json

字符串
下面包含了jssh_js.json

{
    "name": "Test_DF_Pipeline",
    "properties": {
        "activities": [
            {
                "name": "Test_Notebook",
                "type": "DatabricksNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "0.12:0:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [],
                "typeProperties": {
                    "notebookPath": "/test_notebook_path"
                },
                "linkedServiceName": {
                    "referenceName": "DF_Linked_Service",
                    "type": "LinkedServiceReference"
                }
            }
        ],
        "annotations": [],
        "lastPublishTime": "2023-10-21T06:31:10Z"
    },
    "type": "Microsoft.DataFactory/factories/pipelines"
}


现在,如果我需要用更新的代码库在notebook中进行更改,我们应该如何在本地进行更改,就像我们在CICD过程中通常做的那样?

ipakzgxi

ipakzgxi1#

如果我正确理解了你的问题,为了编辑你的笔记本,你需要将databricks repo与github集成
因此,您可以首先通过从您的Databricks工作区文件夹中创建存储库并输入GitHub存储库的URL和GitHub个人访问令牌来将Databricks与GitHub链接

然后您可以使用repo中的workspace文件夹轻松地将工作空间更改从github拉入/推送到github。

你也可以将它添加到你的CI/CD工作流中,以便在每次github合并后自动更新Databases仓库。要做到这一点,你需要使用Git自动化调用的repo API端点。Github Actions可以做到这一点。

相关问题