概要
可観測性と監視は、本番におけるシステムの挙動について、深く実用的な洞察をもたらします。当社は、オープン標準を用いてメトリクス、ログ、トレースという3つの柱を実装し、ユーザーへの影響に結びついた意味のあるダッシュボードとアラートを構築し、分散トレーシングを整備します。これにより、停止中に推測するのではなく、サービス間のどこで、なぜ何かが失敗しているのかを特定できます。
方法論&標準
計装のためのOpenTelemetry、メトリクスとダッシュボードのためのPrometheusとGrafana、構造化ロギングと分散トレーシング、生のしきい値ではなくSLOに整合したアラート。AWS、Azure、GCPのクラウドネイティブツールと連携します。
含まれる内容
OpenTelemetry計装によるメトリクス、ログ、トレース
Grafanaまたは既存プラットフォームでのダッシュボード
サービス間の分散トレーシング
ノイズを減らすようチューニングされた、SLOベースのアラート
提供される成果物
メトリクス、ログ、トレースを出力する計装済みのサービス
ダッシュボードとSLOに整合したアラート
ランブックへのリンクとオンコールアラートのルーティング
業界標準経営層向けレポート修正ガイダンス再テストを含む証明書スキャナーのダンプなし
よくある質問
監視は、サーバーの停止など、既知の何かに異常があるときに教えてくれます。可観測性は、メトリクス、ログ、トレースを相関させて、新しい問いを立て、予期しない何かがなぜ起きているのかを理解できるようにします。両方が必要であり、システムがより分散的になるほど可観測性の重要性が増します。
OpenTelemetryは、計装のためのオープンでベンダー中立な標準です。一度それで計装すれば、選んだバックエンドへデータを送れ、後から再計装することなく切り替えられるため、囲い込みを避けられます。メトリクス、ログ、トレースにとって、長期的に最も安全な基盤です。
