oozie/hadoop:当输入数据集比静态文件更复杂时,如何定义它?

oo7oh9g9  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(221)

我正在尝试使用oozie运行现有的hadoop作业(我正在从aws迁移)。
在aws mapreduce中,我以编程方式提交作业,因此在提交作业之前,我的代码以编程方式查找输入。
我的输入恰好是另一个作业的最后一次成功运行。要查找最后一次成功运行,我需要扫描一个hdfs文件夹,按文件夹命名约定中嵌入的时间戳排序,并查找其中包含一个\u成功文件的最新文件夹。
如何做到这一点是超出我的oozie新手理解。
有人能简单地描述一下我需要在oozie中配置什么,这样我就知道我要达到什么目的了吗?

fcg9iug3

fcg9iug31#

请看一下oozie的以下配置:https://github.com/cloudera/cdh-twitter-example/blob/master/oozie-workflows/coord-app.xml
这里有一个名为“done flag”的标记,您可以将\u success文件放入其中,以便触发工作流或针对您的情况触发map reduce作业。还有一个用于调度作业的参数
${coord:current(1 + (coord:tzoffset() / 60))} ....

相关问题