背景 容器原生设计为单进程模型,但公司线上运行的服务以多进程的方式运行,而且里面包含了很多的agent,例如日志采集、监控采集、数据配送等,耦
现象 线上k8s集群报警,宿主fd利用率超过80%,登陆查看dockerd内存使用26G 排查思路 由于之前已经遇到过多次dockerd资源泄露的
1. 背景 承接上文,近期我们排查弹性云线上几起故障时,故障由多个因素共同引起,列举如下: 弹性云在逐步灰度升级docker版本至 18.06.3-ce 由于历史原因,弹
转载自组内同事stupig 1. 背景 近期,弹性云线上集群发生了几起特殊的容器漂移失败事件,其特殊之处在于容器处于Pod Terminating状态
转载自组内同事 1. 背景 最近升级了一版kubelet,修复因kubelet删除Pod慢导致平台删除集群超时的问题。在灰度redis隔离集群的时候
1. 揭开面纱 周一,接到RD反馈线上容器网络访问存在异常,具体线上描述如下: 上游服务driver-api所有容器访问下游服务duse-api某一