如何在hadoop中监视、发送长时间运行作业的警报

k97glaaz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(405)

我有一个要求,我需要监视hadoop作业(hive/map reduce,spark),这些作业在集群中运行很长时间,比如说3小时。我知道我可以在ui中查看所有这些作业,但我需要每小时或30分钟监视一次,如果作业运行超过3小时,则发送电子邮件/警报。有没有办法做到这一点。我的环境是hdp2.6
提前谢谢。。。。

jjhzyzn0

jjhzyzn01#

你可以看看奥齐。oozie允许您在作业超出预期运行时时配置警报。
为了使用此功能,您必须将您的作业作为oozie工作流提交。
http://oozie.apache.org/docs/4.2.0/dg_overview.htmlhttps://oozie.apache.org/docs/4.3.0/dgŠslamonitoring.htmlŠslaŠu工作流中的定义Š

qnyhuwrf

qnyhuwrf2#

正如tk421所提到的,oozie是在hadoop环境中实现这一点的“正确”方法。
但是,如果您不需要所有的开销,一些简单的东西(如按需看门狗计时器)可能就足够了(即:wdt.io)。基本上,工作流是发送开始信号,开始作业,并在作业完成时发送结束信号。如果第二个信号未在分配的时间内发出,则发送电子邮件/短信警报。
这种方法也适用于非hadoop工作流。

相关问题