概要
サイトリライアビリティエンジニアリングは、ソフトウェアエンジニアリングを運用に適用し、サービスを信頼性が高く、スケーラブルで、効率的にします。当社は、許容可能な信頼性を数値化するサービスレベル目標とエラーバジェットを定義し、それらを用いて機能のデリバリーと安定性のバランスをとります。反復的な作業を自動化し、インシデント対応を改善し、午前3時にチームを起こす繰り返される障害を減らします。
方法論&標準
SLOとSLI、エラーバジェット、トイルの削減を含むGoogleのSREの実践、非難なしのポストモーテム、セキュリティ関連インシデントについてはNIST SP 800-61に整合したインシデント管理の実践。
含まれる内容
エラーバジェットを伴うSLIとSLOの定義
トイルの特定と自動化
インシデント対応、オンコール、非難なしのポストモーテムのプロセス
データに導かれた信頼性とキャパシティの改善
提供される成果物
定義されたSLO、SLI、エラーバジェットのポリシー
改善されたインシデント対応とオンコールのプロセス
繰り返されるトイルを排除する自動化
業界標準経営層向けレポート修正ガイダンス再テストを含む証明書スキャナーのダンプなし
よくある質問
サービスレベル目標は、たとえばリクエストの99.9パーセント成功といった、信頼性の目標値です。この目標値と100パーセントとの差がエラーバジェットです。バジェットが健全なときはより速くリリースでき、使い果たしたときは安定性に集中します。これは信頼性を、共有されたデータに基づく意思決定へと変えます。
両者は重なりますが、焦点が異なります。DevOpsは、速く信頼性の高いデリバリーのための広い文化です。SREは、SLO、エラーバジェット、トイルの削減を用いた、信頼性のための具体的でエンジニアリング主導の実装です。多くの組織は、より広いDevOpsのアプローチの中でSREの実践を適用します。
