我正在运行一个20多个节点的kubernetes集群。一个命名空间中的一个pod重新启动了。吊舱因OOM而被杀死,退出代码为137,并按预期再次重启。但想知道早些时候运行Pod的节点。有什么地方可以查一下记录吗如分蘖,kubelet,kubeproxy等...
qco9c6ql1#
但想知道早些时候运行Pod的节点。如果pod被ExitCode: 137杀死,例如当它使用的内存超过其限制时,它将在同一节点上重新启动-而不是重新调度。为此,请检查指标或容器日志。但是Pod也可能由于过度提交节点而被杀死,参见例如。How to troubleshoot Kubernetes OOM and CPU Throttle的数据。
ExitCode: 137
kmb7vmvb2#
您可以使用下面的Promql查询,其中获取重新启动pod的nodename、pod name、namespace:
Promql
nodename
pod name
namespace
sum(kube_pod_info * on(pod, namespace) group_left(node) sum(changes(kube_pod_container_status_restarts_total[5m])) by (namespace, pod) > 0) by (node, pod, namespace)
字符串
2条答案
按热度按时间qco9c6ql1#
但想知道早些时候运行Pod的节点。
如果pod被
ExitCode: 137
杀死,例如当它使用的内存超过其限制时,它将在同一节点上重新启动-而不是重新调度。为此,请检查指标或容器日志。但是Pod也可能由于过度提交节点而被杀死,参见例如。How to troubleshoot Kubernetes OOM and CPU Throttle的数据。
kmb7vmvb2#
您可以使用下面的
Promql
查询,其中获取重新启动pod的nodename
、pod name
、namespace
:字符串