Инженерия надёжности сайтов (SRE)

Сделайте надёжность измеримым и спроектированным результатом, а не постоянным тушением пожаров.

Ручное экспертное тестирование

Отчётность для руководства

Рекомендации по устранению

Повторное тестирование и аттестация

Анализ прошивки

Тестирование оборудования

Получить бесплатную консультацию Экстренное реагирование

Обзор

Инженерия надёжности сайтов применяет программную инженерию к эксплуатации, чтобы сделать сервисы надёжными, масштабируемыми и эффективными. Мы определяем цели уровня обслуживания и бюджеты ошибок, которые количественно выражают приемлемую надёжность, после чего используем их для балансировки поставки функций и стабильности. Мы автоматизируем повторяющиеся задачи, улучшаем реагирование на инциденты и сокращаем повторяющиеся сбои, которые будят команды в 3 часа ночи.

Методология и стандарты

Практики SRE от Google, включая SLO и SLI, бюджеты ошибок и сокращение повторяющихся задач, безвинные post-mortem'ы и практики управления инцидентами, согласованные с NIST SP 800-61 для инцидентов, релевантных безопасности.

Что входит

Определение SLI и SLO с бюджетами ошибок

Выявление и автоматизация повторяющихся задач

Процесс реагирования на инциденты, готовности и безвинного post-mortem'а

Улучшения надёжности и ёмкости, управляемые данными

Что вы получаете

Определённые SLO, SLI и политика бюджета ошибок

Улучшенный процесс реагирования на инциденты и готовности

Автоматизация, устраняющая повторяющиеся рутинные задачи

Отраслевые стандартыОтчётность для руководстваРекомендации по устранениюПовторное тестирование включеноПисьмо-аттестацияБез дампов сканеров

Часто задаваемые вопросы

Цель уровня обслуживания - это целевой показатель надёжности, например 99,9 процента успешных запросов. Разрыв между этой целью и 100 процентами составляет ваш бюджет ошибок. Когда бюджет здоров, вы можете поставлять быстрее; когда он исчерпан, вы сосредотачиваетесь на стабильности. Это превращает надёжность в разделённое и основанное на данных решение.

Они пересекаются, но различаются по направленности. DevOps - это широкая культура быстрой и надёжной поставки. SRE - это конкретная, управляемая инженерией реализация надёжности с помощью SLO, бюджетов ошибок и сокращения повторяющихся задач. Многие организации применяют практики SRE в рамках более широкого подхода DevOps.

Кому это нужно

Получить бесплатную консультацию

Команды, постоянно борющиеся с инцидентами, сервисы, где простой напрямую стоит выручки или доверия, и быстрорастущие организации, нуждающиеся в том, чтобы надёжность была спроектирована, а не понадеялись на неё.

Записаться на консультацию

Наши обязательства

Определение SLI и SLO с бюджетами ошибок
Выявление и автоматизация повторяющихся задач
Процесс реагирования на инциденты, готовности и безвинного post-mortem'а
Улучшения надёжности и ёмкости, управляемые данными

Связанные услуги

Инженерия надёжности сайтов (SRE)