kubernetes Datadog alert查询从集群获取失败的kubernet cronjob

w8rqjzmb 于 2023-06-21 发布在 Kubernetes

关注(0)|答案(1)|浏览(109)

当kubernet crojob失败时，我试图从Datadog中获取警报。我有一个查询，当它的crashloop时获得pod失败通知，但不确定如何更新cronjob失败的查询

max(last_10m) :avg:kubernets_state.contaier.status_report.count.waiting{reason:crashloopbackoff !pod_phase:succeeded} by {kube_cluster_name, kube_namespace,pod_name,kubernetes.io/clusster/cluster_name}.rollup(avg, 120) >=1

kubernetes

来源：https://stackoverflow.com/questions/73151679/datadog-alert-query-to-get-failed-kubernet-cronjob-from-cluster

1条答案

按热度按时间

x9ybnkn61#

可以使用kubernetes_state.job.completion.failed度量吗？
例如：

max(last_5m):max:kubernetes_state.job.completion.failed{*} by {kube_cluster_name,kube_namespace,kube_cronjob} >= 1

请注意，有两个不同的标记，kube_cronjob是cron作业的名称，kube_job是作业示例的名称。
参见the docs。

赞(0）回复(0）举报 2023-06-21

我来回答

kubernetes Datadog alert查询从集群获取失败的kubernet cronjob

1条答案

相关问题

热门标签

最新问答