我在Azure数据工厂中手动创建了一个管道,其中包含一个databricks notebook,并且已经与github repo同步。我在本地下载repo以进行进一步更改。我还为CICD集成创建了github actions pipeline,下面是代码结构
- .github
- Adf_root
- factory
- linkedService
- pipeline
- publish_config.json
字符串
下面包含了jssh_js.json
{
"name": "Test_DF_Pipeline",
"properties": {
"activities": [
{
"name": "Test_Notebook",
"type": "DatabricksNotebook",
"dependsOn": [],
"policy": {
"timeout": "0.12:0:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"userProperties": [],
"typeProperties": {
"notebookPath": "/test_notebook_path"
},
"linkedServiceName": {
"referenceName": "DF_Linked_Service",
"type": "LinkedServiceReference"
}
}
],
"annotations": [],
"lastPublishTime": "2023-10-21T06:31:10Z"
},
"type": "Microsoft.DataFactory/factories/pipelines"
}
型
现在,如果我需要用更新的代码库在notebook中进行更改,我们应该如何在本地进行更改,就像我们在CICD过程中通常做的那样?
1条答案
按热度按时间ipakzgxi1#
如果我正确理解了你的问题,为了编辑你的笔记本,你需要将databricks repo与github集成
因此,您可以首先通过从您的Databricks工作区文件夹中创建存储库并输入GitHub存储库的URL和GitHub个人访问令牌来将Databricks与GitHub链接
然后您可以使用repo中的workspace文件夹轻松地将工作空间更改从github拉入/推送到github。
你也可以将它添加到你的CI/CD工作流中,以便在每次github合并后自动更新Databases仓库。要做到这一点,你需要使用Git自动化调用的repo API端点。Github Actions可以做到这一点。