Ingénierie de la fiabilité des sites (SRE)
Faites de la fiabilité un résultat mesurable et conçu plutôt qu'une lutte permanente contre les incendies.

Aperçu
L'ingénierie de la fiabilité des sites applique l'ingénierie logicielle à l'exploitation pour rendre les services fiables, évolutifs et efficaces. Nous définissons des objectifs de niveau de service et des budgets d'erreur qui chiffrent la fiabilité acceptable, puis les utilisons pour équilibrer la livraison de fonctionnalités et la stabilité. Nous automatisons les tâches répétitives, améliorons la réponse aux incidents et réduisons les défaillances récurrentes qui réveillent les équipes à 3 heures du matin.
Méthodologie et standards
Pratiques SRE de Google incluant les SLO et SLI, les budgets d'erreur et la réduction des tâches répétitives, les post-mortems sans blâme, et les pratiques de gestion des incidents alignées sur le NIST SP 800-61 pour les incidents pertinents pour la sécurité.
Ce qui est inclus
Ce que vous recevez
Questions fréquentes
Un objectif de niveau de service est une cible de fiabilité, par exemple 99,9 pour cent des requêtes réussies. L'écart entre cette cible et 100 pour cent constitue votre budget d'erreur. Lorsque le budget est sain, vous pouvez livrer plus vite ; lorsqu'il est épuisé, vous vous concentrez sur la stabilité. Cela transforme la fiabilité en une décision partagée et fondée sur les données.
Ils se recoupent mais diffèrent par leur orientation. Le DevOps est une culture large pour une livraison rapide et fiable. Le SRE est une implémentation spécifique, pilotée par l'ingénierie, de la fiabilité à l'aide des SLO, des budgets d'erreur et de la réduction des tâches répétitives. De nombreuses organisations appliquent des pratiques SRE au sein d'une approche DevOps plus large.