第11章　Trouble Shooting指南

本章将对Kubernetes集群中常见问题的排查方法进行说明。

为了跟踪和发现在Kubernetes集群中运行的容器应用出现的问题，我们常用如下查错方法。

（1）查看Kubernetes对象的当前运行时信息，特别是与对象关联的Event事件。这些事件记录了相关主题、发生时间、最近发生时间、发生次数及事件原因等，对排查故障非常有价值。此外，通过查看对象的运行时数据，我们还可以发现参数错误、关联错误、状态异常等明显问题。由于在Kubernetes中多种对象相互关联，因此这一步可能会涉及多个相关对象的排查问题。

（2）对于服务、容器方面的问题，可能需要深入容器内部进行故障诊断，此时可以通过查看容器的运行日志来定位具体问题。

（3）对于某些复杂问题，例如Pod调度这种全局性的问题，可能需要结合集群中每个节点上的Kubernetes服务日志来排查。比如搜集Master上的kube-apiserver、kube-schedule、kube-controler-manager服务日志，以及各个Node上的kubelet、kube-proxy服务日志，通过综合判断各种信息，就能找到问题的成因并解决问题。

第11章 Trouble Shooting指南

第11章　Trouble Shooting指南