站点可靠性工程（SRE）

让可靠性成为一项可衡量、经设计的结果，而非一场永无止境的救火。

人工专家测试

高管报告

整改指导

复测与鉴证

固件分析

硬件测试

概览

站点可靠性工程将软件工程应用于运营，使服务可靠、可扩展且高效。我们定义服务水平目标和错误预算，将可接受的可靠性量化，然后据此在功能交付和稳定性之间取得平衡。我们自动化重复性工作、改进事件响应，并减少那些在凌晨三点惊醒团队的反复故障。

Google 的 SRE 实践，包括 SLO 和 SLI、错误预算和减少重复性工作、无指责的事后复盘，以及与 NIST SP 800-61 保持一致的、面向安全相关事件的事件管理实践。

定义 SLI 和 SLO 以及错误预算

识别并自动化重复性工作

事件响应、值班及无指责事后复盘流程

由数据引导的可靠性和容量改进

定义好的 SLO、SLI 及错误预算策略

改进后的事件响应和值班流程

消除反复重复性工作的自动化

行业标准高管报告整改指导包含复测鉴证函杜绝扫描器堆砌

服务水平目标是一个可靠性目标，例如 99.9% 的请求成功。该目标与 100% 之间的差距构成您的错误预算。当预算健康时，您可以更快交付；当预算耗尽时，您专注于稳定性。这把可靠性变成一项共担、基于数据的决策。

两者有所重叠，但侧重不同。DevOps 是关于快速可靠交付的广义文化。SRE 是一种具体的、由工程驱动的可靠性实现方式，借助 SLO、错误预算和减少重复性工作。许多组织在更广义的 DevOps 方法中应用 SRE 实践。