我希望有人能澄清tensorflow和它的依赖关系(光束、气流、flink等)
我正在引用tfx主页:https://www.tensorflow.org/tfx/guide#creating_a_tfx_pipeline_with_airflow 等等。
在示例中,我看到了三种变体:https://github.com/tensorflow/tfx/tree/master/tfx/examples/chicago_taxi_pipeline taxi_pipeline_flink.py
, taxi_pipeline_kubeflow.py
, taxi_pipeline_simple.py
##梁示例?
没有“梁”的例子,也很少描述它的用途。
假设正确吗 taxi_pipeline_simple.py
即使未安装气流,也会运行吗?我想不是因为它使用了“airflowdagrunner”。如果没有,那么你能运行tfx只有梁和它的运行?如果是这样,为什么没有这样的例子?
Flink示例
在 taxi_pipeline_flink.py
,使用气流转轮。我假设这是使用气流作为一个编排器,而反过来使用flink作为它的执行者。对的?
气流示例
该页声明beam是必需的依赖项,但是airflow没有beam作为其执行器之一。它只有sequentialexecutor、localexecutor、celeryexecutor、daskexecutor和kubernetesexecutor。所以,只有在不使用气流时才需要光束吗?使用气流时,如果需要,光束的用途是什么?
谢谢你的真知灼见。
1条答案
按热度按时间guz6ccqo1#
a) 为了运行tfx管道,您需要编排器。例如apache airflow、kubeflow管道和apache beam。
b) apachebeam在一些tfx组件中还(可能主要)用于分布式数据处理。因此,apachebeam对于您选择的任何编排器都是必需的(即使您不使用apachebeam作为编排器!)
回答你的问题:
1) 梁示例-现在有一个梁示例https://github.com/tensorflow/tfx/blob/master/tfx/examples/chicago_taxi_pipeline/taxi_pipeline_beam.py. 正如您正确预期的,这里没有airflowdagrunner,因为此示例不使用airflowdagrunner作为编排器。
2) 气流示例-由于上述原因,beam是必需的依赖项:在某些组件中,tfx总是使用beam进行分布式数据处理。因此,即使使用气流(或任何其他)作为编排器,也需要梁。
3) flink示例-目前,我在任何地方都找不到这个示例(可能是因为您发布后链接发生了更改),但flink可能被用作runner,而airflow是orchestrator。然而,我在airflow的文档中找不到对flink的提及。
希望能有所帮助。