深度解密基于 eBPF 的 Kubernetes 问题排查全景图
的最小集合。黄金指标有两个好处:一,直接了然地表达了系统是否正常对外服务。二,能快速评估对用户的影响或事态的严重性,能大量节省 SRE 或研发的时间,想象下如果我们取 CPU 使用率作为黄金指标,那么 SRE 或研发将会奔于疲命,因为 CPU 使用率高可能并不会造成多大的影响。Kubernetes 监测支持这些指标:请求数/QPS响应时间及分位数(P50、P90、P95、P99)错误数慢调用数如下图所示:全局视角的服务拓扑诸葛亮曾言“不谋全局者,不足谋一域 ”。随着当下技术架构、部署架构的复杂度越来越高,发生问题后定位问题变得越来越棘手,进而导致 MTTR 越来越高。另一个影响是对影响面的分析带来非常大的挑战,通常会造成顾此失彼。因此,有一张像地图一样的拓扑大图非常必要。全局拓扑具有以下特...阅读全文