我正在尝试使用oozie运行现有的hadoop作业(我正在从aws迁移)。在aws mapreduce中,我以编程方式提交作业,因此在提交作业之前,我的代码以编程方式查找输入。我的输入恰好是另一个作业的最后一次成功运行。要查找最后一次成功运行,我需要扫描一个hdfs文件夹,按文件夹命名约定中嵌入的时间戳排序,并查找其中包含一个\u成功文件的最新文件夹。如何做到这一点是超出我的oozie新手理解。有人能简单地描述一下我需要在oozie中配置什么,这样我就知道我要达到什么目的了吗?
fcg9iug31#
请看一下oozie的以下配置:https://github.com/cloudera/cdh-twitter-example/blob/master/oozie-workflows/coord-app.xml这里有一个名为“done flag”的标记,您可以将\u success文件放入其中,以便触发工作流或针对您的情况触发map reduce作业。还有一个用于调度作业的参数${coord:current(1 + (coord:tzoffset() / 60))} ....
1条答案
按热度按时间fcg9iug31#
请看一下oozie的以下配置:https://github.com/cloudera/cdh-twitter-example/blob/master/oozie-workflows/coord-app.xml
这里有一个名为“done flag”的标记,您可以将\u success文件放入其中,以便触发工作流或针对您的情况触发map reduce作业。还有一个用于调度作业的参数
${coord:current(1 + (coord:tzoffset() / 60))} ....