oozie协同工作流

omvjsjqw  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(559)

我有一个要求,运行多个mapreduce作业的基础上,不同的文件集击中同一个表。我在探索oozie,但我没有完全意识到oozie。
我的要求是
1基于时间限制(和/或)文件限制运行作业。
2如果某些文件不可用,则应跳过该步骤。
三。用户应该能够配置哪些步骤以及每个步骤的优先级。
有人能建议oozie是否符合我的要求吗?如果是这样,我该如何完成?
如果没有,是否有任何免费或商业工具类似于visualcron,我们打算取代它来运行map reduce和基于java的作业?

6psbrbz9

6psbrbz91#

基本上,您希望基于一天中预定时间的数据可用性为bunchmr jobs运行oozie工作流。你需要定义 Decision 用于检查数据是否存在和 mapreduce 运行mapreduce作业的操作。您还可以为作业失败定义邮件通知功能。您可以在这里找到mapreduce节点、decision节点、oozie操作文档的详细信息。我给了一个样品 decision 节点和 mapreduce 节点以及 job.properties 文件。下面是运行oozie工作流的命令。您可以将它安排为cron,以便在给定的时间每天运行它。 oozie job -config job.properties -D param1=value -run ```


${jobTracker}
${nameNode}


mapred.job.queue.name
${queueName}


Here we are going to data2_check decision node for both failure and success.

Because you want to run the next data job to run. You can stop the work flow by sending it to kill node failure.

Your Last MR action will go to 'kill' node for failure and 'end' node for success.

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}
inputDir=input-data
outputDir=map-reduce

rbl8hiat

rbl8hiat2#

引用“oozie coord用例”(来自那些在oozie成为开源之前实际使用过它的人,他们至今仍是最大的用户)
下面是oozie协调器引擎的一些典型用例。
您希望每天下午2点运行一次工作流(类似于cron)。
您希望每小时运行一次工作流,还希望等待特定的数据源在hdfs上可用
您希望运行依赖于其他工作流的工作流。
继续学习教程。
顺便说一句,oozie的最新版本是v4.2=>coordinator文档

相关问题