Ingeniería de fiabilidad de sitios (SRE)

Haga de la fiabilidad un resultado medible y diseñado en lugar de una lucha permanente contra los incendios.

Pruebas manuales por expertos

Informes ejecutivos

Orientación de remediación

Nueva prueba y atestación

Análisis de firmware

Pruebas de hardware

Solicite una consulta gratuita Respuesta de emergencia

Visión general

La ingeniería de fiabilidad de sitios aplica la ingeniería de software a la operación para hacer los servicios fiables, escalables y eficientes. Definimos objetivos de nivel de servicio y presupuestos de error que cuantifican la fiabilidad aceptable, y luego los utilizamos para equilibrar la entrega de funcionalidades y la estabilidad. Automatizamos las tareas repetitivas, mejoramos la respuesta a incidentes y reducimos los fallos recurrentes que despiertan a los equipos a las 3 de la madrugada.

Metodología y estándares

Prácticas de SRE de Google, incluidos los SLO y SLI, los presupuestos de error y la reducción de las tareas repetitivas, los post-mortems sin culpa, y las prácticas de gestión de incidentes alineadas con el NIST SP 800-61 para los incidentes pertinentes para la seguridad.

Qué incluye

Definición de los SLI y SLO con presupuestos de error

Identificación y automatización de las tareas repetitivas

Procesos de respuesta a incidentes, de guardia y de post-mortem sin culpa

Mejoras de la fiabilidad y de la capacidad guiadas por los datos

Qué recibe

SLO, SLI y política de presupuesto de error definidos

Proceso mejorado de respuesta a incidentes y de guardia

Automatización que elimina las tareas repetitivas recurrentes

Estándares del sectorInformes ejecutivosOrientación de remediaciónNueva prueba incluidaCarta de atestaciónSin volcados de escáner

Preguntas frecuentes

Un objetivo de nivel de servicio es un objetivo de fiabilidad, por ejemplo el 99,9 por ciento de las solicitudes con éxito. La diferencia entre ese objetivo y el 100 por ciento constituye su presupuesto de error. Cuando el presupuesto está sano, puede entregar más rápido; cuando se agota, se centra en la estabilidad. Esto convierte la fiabilidad en una decisión compartida y basada en los datos.

Se solapan pero difieren en su orientación. El DevOps es una cultura amplia para una entrega rápida y fiable. El SRE es una implementación específica, impulsada por la ingeniería, de la fiabilidad mediante los SLO, los presupuestos de error y la reducción de las tareas repetitivas. Muchas organizaciones aplican prácticas de SRE dentro de un enfoque DevOps más amplio.

Ingeniería de fiabilidad de sitios (SRE)