背景 k8s 1.12.4 包含自定义功能 线上集群在批量原地升级时出现流量异常问题,大体流程如下: 批量摘流,并等待7秒 批量删除容器 watch到Endpoint ready
背景 codis集群在接入弹性云测试时发现容器漂移失败,通过集群日志看,提示 调度超时,去界面查看,已经调度成功了(调度成功的标志就是已经有宿主
背景 版本1.12.4 线上遇到kube-controller-manager重启慢的问题,具体表现为进程重启虽然速度快,但是重启完所有数据都同
问题描述 etcd 3.3.1 flannel 0.11.0 flannel启动时报错,启动参数如下 1 ./flannel -etcd-keyfile=/etc/kubernetes/ssl/etcd-client-key.pem -etcd-cafile=/etc/kubernetes/ssl/ca.pem -etcd-endpoints=https://ip:port -etcd-certfile=/etc/kubernetes/ssl/etcd-client.pem -etcd-prefix=/coreos.com/network 错误信息如下: 1 2 3 4 5 E0908 20:27:17.671602 2331 main.go:382] Couldn't fetch network config: 100: Key not found (/coreos.com) [22] timed out E0908 20:27:18.680096 2331 main.go:382] Couldn't fetch network config:
背景 线上master的apiserver组件内存报警,内存使用量持续增长,监控如下 排查过程 从监控上看和另外一个程序(管理员平台)的内存使用情
最近的工作都跟集群调度有关,一直在为了满足用户需求添加各种调度策略,现在也暂时告一段落了,抽时间总结思考了之前的工作,调度本质上就是背包问题