当节点基于作业“kured_reboots”重新启动时,alertManager仍会对其他节点警报发出警报。是否有一种方法可以停止基于作业“kured_reboot”重新启动的节点的alertManager警报?就像这样:
route:
receiver: default
group_by:
- cluster
- namespace
- severity
- alertname
- job
continue: false
routes:
- receiver: receiver1
matchers:
- job =~ "kured_reboot"
active_time_intervals:
- business-hours
inhibit_rules:
- source_matchers:
- job="kured_reboot"
target_matchers:
- severity=~"critical|warning|info"
equal:
- namespace
- alertname
到目前为止,我还在研究这一点,还没有尝试任何东西。我想问问以前有没有人做过这样的事情。
1条答案
按热度按时间bttbmeg01#
通常有两种方法可以做到这一点:
1.将有关此作业的其他检查合并到警报规则中。为此,您需要添加类似
unless on() my_job_status{name="kured_reboot"} == 1
的东西(您可能需要类似的东西,甚至完全不同,这取决于您的情况和工作风格以及与之相关的指标)1.基于此作业正在运行的事实创建警报,并添加禁止规则,这将防止在作业运行时触发其他警报。