【K8S系列】Pod重启策略及重启可能原因

apiVersion: v1
kind: Pod
metadata:
  name: nginx-pod-test
spec:
  restartPolicy: Always/OnFailure/Nerver # 重启策略,根据需求选择一种即可
  containers:
    - name: nginx-pod-test
      image: nginx

2 Pod常见异常状态

Pending状态
Waiting/ContainerCreating状态
CrashLoopBackOff状态
ImagePullBackOff状态
Error状态
其他状态说明

2.1 Pending状态

Pending状态:

说明Pod的YAML文件已提交给Kubernetes
API对象已经被创建并保存在Etcd当中

原因这个Pod里有些容器因为某种原因而不能被顺利创建。

可能原因

调度不成功

可以通过命令查看到当前Pod的事件进而判断为什么没有调度。
kubectl describe pod {podname}
资源不足

原因集群内所有的Node都不满足该Pod请求的CPU、内存、GPU等资源
解决方法增加资源配置/优化容器资源使用方式

HostPort 已被占用

解决方法使用Service对外开放服务端口

2.2 Waiting/ContainerCreating状态

首先通过命令查看当前Pod的事件
kubectl describe pod {podname}

可能的原因有:

镜像拉取失败比如镜像地址配置错误、拉取不了国外镜像源gcr.io)、私有镜像密钥配置错误、镜像太大导致拉取超时 (可以适当调整kubelet的-image-pull-progress-deadline和-runtime-request-timeout选项)等。
CNI网络错误检查CNI网络插件的配置比如:无法配置Pod 网络、无法分配IP地址。
容器无法启动检查是否打包了正确的镜像或者是否配置了正确的容器参数
Failed create pod sandbox查看kubelet日志原因可能是磁盘坏道input/output error)。

2.3 CrashLoopBackOff状态

处于CrashLoopBackOff状态
说明容器曾经启动了但又异常退出。

1.查看容器的日志查看退出原因
kubectl logs {podname}
kubectl logs --previous {podname}
2.进入容器查看
kubectl exec {mypodname} -c {containername} -it -- bash
3.ssh登录Node查看

2.4 ImagePullBackOff状态

处于ImagePullBackOff状态
原因是镜像名称配置错误或者私有镜像的密钥配置错误导致。

2.5 Error状态

Pod处于Error状态说明Pod启动过程中发生了错误。

2.6 其他状态说明

CrashLoopBackOff    #容器退出kubelet正在将它重启
InvalidImageName    #无法解析镜像名称
ImageInspectError   #无法校验镜像
ErrImageNeverPull   #策略禁止拉取镜像
ImagePullBackOff    #正在重试拉取
RegistryUnavailable #连接不到镜像中心
ErrImagePull        #通用的拉取镜像出错
CreateContainerConfigError #不能创建kubelet使用的容器配置
CreateContainerError #创建容器失败
m.internalLifecycle.PreStartContainer #执行hook报错
RunContainerError   #启动容器失败
PostStartHookError  #执行hook报错
ContainersNotInitialized #容器没有初始化完毕
ContainersNotReady   #容器没有准备完毕
ContainerCreating    #容器创建中
PodInitializingpod   #初始化中
DockerDaemonNotReady  #docker还没有完全启动
NetworkPluginNotReady #网络插件还没有完全启动
Evicte:     #pod被驱赶