Инженерия надёжности сайтов (SRE)
Сделайте надёжность измеримым и спроектированным результатом, а не постоянным тушением пожаров.

Обзор
Инженерия надёжности сайтов применяет программную инженерию к эксплуатации, чтобы сделать сервисы надёжными, масштабируемыми и эффективными. Мы определяем цели уровня обслуживания и бюджеты ошибок, которые количественно выражают приемлемую надёжность, после чего используем их для балансировки поставки функций и стабильности. Мы автоматизируем повторяющиеся задачи, улучшаем реагирование на инциденты и сокращаем повторяющиеся сбои, которые будят команды в 3 часа ночи.
Методология и стандарты
Практики SRE от Google, включая SLO и SLI, бюджеты ошибок и сокращение повторяющихся задач, безвинные post-mortem'ы и практики управления инцидентами, согласованные с NIST SP 800-61 для инцидентов, релевантных безопасности.
Что входит
Что вы получаете
Часто задаваемые вопросы
Цель уровня обслуживания — это целевой показатель надёжности, например 99,9 процента успешных запросов. Разрыв между этой целью и 100 процентами составляет ваш бюджет ошибок. Когда бюджет здоров, вы можете поставлять быстрее; когда он исчерпан, вы сосредотачиваетесь на стабильности. Это превращает надёжность в разделённое и основанное на данных решение.
Они пересекаются, но различаются по направленности. DevOps — это широкая культура быстрой и надёжной поставки. SRE — это конкретная, управляемая инженерией реализация надёжности с помощью SLO, бюджетов ошибок и сокращения повторяющихся задач. Многие организации применяют практики SRE в рамках более широкого подхода DevOps.