关于构建基于hadoop的数据管道的调度工具的建议

qkf9rpyu  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(403)

ApacheOozie、spotify/luigi和airbnb/airflow各有哪些优点和缺点?
在过去,我使用oozie和airflow构建了一个使用pig和hive的数据接收管道。目前,我正在构建一个管道,它可以查看日志,提取出有用的事件,并将它们置于红移状态。
我发现气流更容易使用/测试/设置。它有一个更酷的ui,允许用户从ui本身执行操作,而oozie则不是这样。欢迎提供任何关于路易吉的信息或其他关于稳定性和问题的见解。

mm9b1k5b

mm9b1k5b1#

azkaban:很好的ui,相对简单,非程序员可以访问。在linkedin有着悠久的历史。
查看azkaban cli项目以创建编程作业。我在github上有一个azkaban示例工作流项目。
气流:体面的用户界面,python风格的作业定义,对非程序员来说是半可访问的,依赖声明语法很奇怪。
luigi:好的ui,工作流是纯python的,需要对python编码和面向对象概念有扎实的掌握,因此不适合非程序员。
oozie:基于xml的作业定义太疯狂了。龙来了
阿兹卡班强调简单(不能使用不存在的特性),而其他人则巧妙地鼓励复杂性。
更简单的管道比复杂的管道好:更容易创建,更容易理解(尤其是当你没有创建的时候),更容易调试/修复。
当需要复杂的操作时,您希望以完全成功或完全失败的方式封装它们。
如果你能使它幂等(再次运行它会产生相同的结果),那就更好了。

ao218c7q

ao218c7q2#

这篇文章将给你一个不同可能的工作流程的初步想法
http://bytepawn.com/luigi-airflow-pinball.html

相关问题