那个没被云原生做掉的运维 转头就做了SRE

Google在10年前创造了SRE这个工种。SRE,Site Reliability Engineering的缩写,其中site是指Website,可以翻译为网站可靠性工程。几年前资深Google SRE Chris Jones等人联合撰写了《Google SRE: How Google runs production systems》,首次向外界解密了Goog

一文帮你掌握整个SRE运维体系

一文帮你掌握整个SRE运维体系

一整套的可观测系统,它能确保你洞察系统,跟踪系统的健康状态、可用性以及系统内部发生的事情。 对于整个可观测系统的建设,需要注意如下两点: 确定质量标准是什么,并确保系统持续逼近或保持在质量标准极限范围内 系统地关注这项工作而不应该只是随机地查

什么是SRE?这篇文章告诉你SRE运维体系

在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面: 指标监控:即各种指标监控,比如基础资源指标,服务性能指标,业务的调用指标。 日志:各种