oozie/hadoop：当输入数据集比静态文件更复杂时，如何定义它？

oo7oh9g9 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(221)

我正在尝试使用oozie运行现有的hadoop作业（我正在从aws迁移）。
在aws mapreduce中，我以编程方式提交作业，因此在提交作业之前，我的代码以编程方式查找输入。
我的输入恰好是另一个作业的最后一次成功运行。要查找最后一次成功运行，我需要扫描一个hdfs文件夹，按文件夹命名约定中嵌入的时间戳排序，并查找其中包含一个\u成功文件的最新文件夹。
如何做到这一点是超出我的oozie新手理解。
有人能简单地描述一下我需要在oozie中配置什么，这样我就知道我要达到什么目的了吗？

hadoop mapreduce oozie

来源：https://stackoverflow.com/questions/16186940/oozie-hadoop-how-do-i-define-an-input-dataset-when-its-more-complex-than-just

1条答案

按热度按时间

fcg9iug31#

请看一下oozie的以下配置：https://github.com/cloudera/cdh-twitter-example/blob/master/oozie-workflows/coord-app.xml
这里有一个名为“done flag”的标记，您可以将\u success文件放入其中，以便触发工作流或针对您的情况触发map reduce作业。还有一个用于调度作业的参数
${coord:current(1 + (coord:tzoffset() / 60))} ....

赞(0）回复(0）举报 2021-06-03

我来回答

oozie/hadoop：当输入数据集比静态文件更复杂时，如何定义它？

1条答案

相关问题

热门标签

最新问答