kubernetes Datadog alert查询从集群获取失败的kubernet cronjob

w8rqjzmb  于 2023-06-21  发布在  Kubernetes
关注(0)|答案(1)|浏览(109)

当kubernet crojob失败时,我试图从Datadog中获取警报。我有一个查询,当它的crashloop时获得pod失败通知,但不确定如何更新cronjob失败的查询

max(last_10m) :avg:kubernets_state.contaier.status_report.count.waiting{reason:crashloopbackoff !pod_phase:succeeded} by {kube_cluster_name, kube_namespace,pod_name,kubernetes.io/clusster/cluster_name}.rollup(avg, 120) >=1
x9ybnkn6

x9ybnkn61#

可以使用kubernetes_state.job.completion.failed度量吗?
例如:

max(last_5m):max:kubernetes_state.job.completion.failed{*} by {kube_cluster_name,kube_namespace,kube_cronjob} >= 1

请注意,有两个不同的标记,kube_cronjob是cron作业的名称,kube_job是作业示例的名称。
参见the docs

相关问题