当kubernet crojob失败时,我试图从Datadog中获取警报。我有一个查询,当它的crashloop时获得pod失败通知,但不确定如何更新cronjob失败的查询
max(last_10m) :avg:kubernets_state.contaier.status_report.count.waiting{reason:crashloopbackoff !pod_phase:succeeded} by {kube_cluster_name, kube_namespace,pod_name,kubernetes.io/clusster/cluster_name}.rollup(avg, 120) >=1
1条答案
按热度按时间x9ybnkn61#
可以使用
kubernetes_state.job.completion.failed
度量吗?例如:
请注意,有两个不同的标记,
kube_cronjob
是cron作业的名称,kube_job
是作业示例的名称。参见the docs。