Ingénierie de la fiabilité des sites (SRE)

Faites de la fiabilité un résultat mesurable et conçu plutôt qu'une lutte permanente contre les incendies.

Tests manuels par des experts

Reporting exécutif

Recommandations de remédiation

Nouveau test et attestation

Analyse du firmware

Tests matériels

Demander une consultation gratuite Réponse d'urgence

Aperçu

L'ingénierie de la fiabilité des sites applique l'ingénierie logicielle à l'exploitation pour rendre les services fiables, évolutifs et efficaces. Nous définissons des objectifs de niveau de service et des budgets d'erreur qui chiffrent la fiabilité acceptable, puis les utilisons pour équilibrer la livraison de fonctionnalités et la stabilité. Nous automatisons les tâches répétitives, améliorons la réponse aux incidents et réduisons les défaillances récurrentes qui réveillent les équipes à 3 heures du matin.

Méthodologie et standards

Pratiques SRE de Google incluant les SLO et SLI, les budgets d'erreur et la réduction des tâches répétitives, les post-mortems sans blâme, et les pratiques de gestion des incidents alignées sur le NIST SP 800-61 pour les incidents pertinents pour la sécurité.

Ce qui est inclus

Définition des SLI et SLO avec budgets d'erreur

Identification et automatisation des tâches répétitives

Processus de réponse aux incidents, d'astreinte et de post-mortem sans blâme

Améliorations de la fiabilité et de la capacité guidées par les données

Ce que vous recevez

SLO, SLI et politique de budget d'erreur définis

Processus amélioré de réponse aux incidents et d'astreinte

Automatisation qui supprime les tâches répétitives récurrentes

Standards du secteurReporting exécutifRecommandations de remédiationNouveau test inclusLettre d'attestationPas de simples sorties de scanner

Questions fréquentes

Un objectif de niveau de service est une cible de fiabilité, par exemple 99,9 pour cent des requêtes réussies. L'écart entre cette cible et 100 pour cent constitue votre budget d'erreur. Lorsque le budget est sain, vous pouvez livrer plus vite ; lorsqu'il est épuisé, vous vous concentrez sur la stabilité. Cela transforme la fiabilité en une décision partagée et fondée sur les données.

Ils se recoupent mais diffèrent par leur orientation. Le DevOps est une culture large pour une livraison rapide et fiable. Le SRE est une implémentation spécifique, pilotée par l'ingénierie, de la fiabilité à l'aide des SLO, des budgets d'erreur et de la réduction des tâches répétitives. De nombreuses organisations appliquent des pratiques SRE au sein d'une approche DevOps plus large.

Ingénierie de la fiabilité des sites (SRE)