在Azure DataFactory中执行python脚本

yptwkmov  于 2023-02-19  发布在  Python
关注(0)|答案(2)|浏览(156)

我将数据存储在blob中,并编写了一个python脚本来执行一些计算并创建另一个csv。如何在Azure Data Factory中执行此操作?

rsl1atfo

rsl1atfo1#

您可以使用Azure Data Factory V2 custom activity来满足您的需求。您可以使用自定义活动直接执行命令来调用Python脚本。
请参考GitHub上的sample

1u4esq0p

1u4esq0p2#

另一个选项是使用DatabasericksSparkPython活动。如果你想要横向扩展,这是有意义的,但可能需要对PySpark支持进行一些代码修改。前提条件是Azure Databasericks工作区。你必须将脚本上载到DBFS,并可以通过Azure数据工厂触发它。以下示例触发脚本pi.py:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
             "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

详情请参见Documentation

相关问题