我将数据存储在blob中,并编写了一个python脚本来执行一些计算并创建另一个csv。如何在Azure Data Factory中执行此操作?
rsl1atfo1#
您可以使用Azure Data Factory V2 custom activity来满足您的需求。您可以使用自定义活动直接执行命令来调用Python脚本。请参考GitHub上的sample。
1u4esq0p2#
另一个选项是使用DatabasericksSparkPython活动。如果你想要横向扩展,这是有意义的,但可能需要对PySpark支持进行一些代码修改。前提条件是Azure Databasericks工作区。你必须将脚本上载到DBFS,并可以通过Azure数据工厂触发它。以下示例触发脚本pi.py:
{ "activity": { "name": "MyActivity", "description": "MyActivity description", "type": "DatabricksSparkPython", "linkedServiceName": { "referenceName": "MyDatabricksLinkedservice", "type": "LinkedServiceReference" }, "typeProperties": { "pythonFile": "dbfs:/docs/pi.py", "parameters": [ "10" ], "libraries": [ { "pypi": { "package": "tensorflow" } } ] } } }
详情请参见Documentation。
2条答案
按热度按时间rsl1atfo1#
您可以使用Azure Data Factory V2 custom activity来满足您的需求。您可以使用自定义活动直接执行命令来调用Python脚本。
请参考GitHub上的sample。
1u4esq0p2#
另一个选项是使用DatabasericksSparkPython活动。如果你想要横向扩展,这是有意义的,但可能需要对PySpark支持进行一些代码修改。前提条件是Azure Databasericks工作区。你必须将脚本上载到DBFS,并可以通过Azure数据工厂触发它。以下示例触发脚本pi.py:
详情请参见Documentation。