概览
站点可靠性工程将软件工程应用于运营,使服务可靠、可扩展且高效。我们定义服务水平目标和错误预算,将可接受的可靠性量化,然后据此在功能交付和稳定性之间取得平衡。我们自动化重复性工作、改进事件响应,并减少那些在凌晨三点惊醒团队的反复故障。
方法论与标准
Google 的 SRE 实践,包括 SLO 和 SLI、错误预算和减少重复性工作、无指责的事后复盘,以及与 NIST SP 800-61 保持一致的、面向安全相关事件的事件管理实践。
包含内容
定义 SLI 和 SLO 以及错误预算
识别并自动化重复性工作
事件响应、值班及无指责事后复盘流程
由数据引导的可靠性和容量改进
您将获得
定义好的 SLO、SLI 及错误预算策略
改进后的事件响应和值班流程
消除反复重复性工作的自动化
行业标准高管报告整改指导包含复测鉴证函杜绝扫描器堆砌
常见问题
服务水平目标是一个可靠性目标,例如 99.9% 的请求成功。该目标与 100% 之间的差距构成您的错误预算。当预算健康时,您可以更快交付;当预算耗尽时,您专注于稳定性。这把可靠性变成一项共担、基于数据的决策。
两者有所重叠,但侧重不同。DevOps 是关于快速可靠交付的广义文化。SRE 是一种具体的、由工程驱动的可靠性实现方式,借助 SLO、错误预算和减少重复性工作。许多组织在更广义的 DevOps 方法中应用 SRE 实践。
