Ingeniería de fiabilidad de sitios (SRE)
Haga de la fiabilidad un resultado medible y diseñado en lugar de una lucha permanente contra los incendios.

Visión general
La ingeniería de fiabilidad de sitios aplica la ingeniería de software a la operación para hacer los servicios fiables, escalables y eficientes. Definimos objetivos de nivel de servicio y presupuestos de error que cuantifican la fiabilidad aceptable, y luego los utilizamos para equilibrar la entrega de funcionalidades y la estabilidad. Automatizamos las tareas repetitivas, mejoramos la respuesta a incidentes y reducimos los fallos recurrentes que despiertan a los equipos a las 3 de la madrugada.
Metodología y estándares
Prácticas de SRE de Google, incluidos los SLO y SLI, los presupuestos de error y la reducción de las tareas repetitivas, los post-mortems sin culpa, y las prácticas de gestión de incidentes alineadas con el NIST SP 800-61 para los incidentes pertinentes para la seguridad.
Qué incluye
Qué recibe
Preguntas frecuentes
Un objetivo de nivel de servicio es un objetivo de fiabilidad, por ejemplo el 99,9 por ciento de las solicitudes con éxito. La diferencia entre ese objetivo y el 100 por ciento constituye su presupuesto de error. Cuando el presupuesto está sano, puede entregar más rápido; cuando se agota, se centra en la estabilidad. Esto convierte la fiabilidad en una decisión compartida y basada en los datos.
Se solapan pero difieren en su orientación. El DevOps es una cultura amplia para una entrega rápida y fiable. El SRE es una implementación específica, impulsada por la ingeniería, de la fiabilidad mediante los SLO, los presupuestos de error y la reducción de las tareas repetitivas. Muchas organizaciones aplican prácticas de SRE dentro de un enfoque DevOps más amplio.