2つのインシデント対応の物語:AIアシスタントが原因特定を3.5倍速くした方法

2つのインシデント対応の物語:AIアシスタントが原因特定を3.5倍速くした方法

2026-01-291 min
Twitter
Facebook
LinkedIn

約2カ月前、Grafana Labsであるインシデントが発生しました。その始まりは、ごく典型的なものでした。いくつかのアラートが発火し、当番のオンコールエンジニアがSlackでそれを認知し、チームの他のメンバーはすぐに想定される原因について仮説を立て始めました。

Slack notification showing a critical alert for an Assistant API latency spike. Includes details like SLO type, owner, and Grafana link.

しかし、そのインシデントが解決されるまでの過程は、典型的なものとは全く異なっていました。

もちろん、私たちの社内チームはベストプラクティスに従い、できるだけ早くインシデントを解決しました。ですが同時に、Grafana Cloudにおける複数ステップのインシデント調査を加速するために社内で開発していたAI駆動ツールであるGrafana Assistant Investigationsも、同じタスクに取りかかっていました。

オンコールエンジニアがダッシュボードとログを掘り下げて調査している間に、AIアシスタントは静かにバックグラウンドで独自の調査を開始しました。そして開始から8分後、根本原因(root cause)を見つけ出し、オンコールチームが同じ結論に到達する20分前に原因特定を終えていました。

そして現在、Assistant Investigationsはパブリックプレビューとして、すべてのGrafana Cloudユーザーが利用できるようになっています。これは、エンジニアリングチームを置き換えるのではなく支援し、「火消し」に追われるのではなく、優れた製品を提供することに集中できるようになります。

2つの道筋、1つの根本原因

詳細に入る前に、まずはAssistant Investigationsについて簡単にご説明し、最新情報をお伝えします。

このツールは、特化した多数のAIエージェントを連携させ、お客様のオブザーバビリティスタックを分析します。メトリクス、ログ、トレース、プロファイルに深く入り込み、異常を検知してシステムの状況を描き出します。

Assistant Investigationsは、並列に証拠を収集し、所見と仮説を生成することで、緩和(mitigation)と復旧(remediation)のための実行可能な提案を提供できます。また、Grafana向けに設計されたAIチャットボットであるGrafana Assistantへ直接組み込まれているため、複雑なインシデントを解決するためのシームレスでガイド付きのワークフローを得られます。

では、結果を見ていきます。

Bar chart comparing incident response times: AI assistant at 8 minutes and on-call engineer at 28 minutes, with AI being 71% faster.

最終的に、原因は私のPR(プルリクエスト)の一部はAIが生成したSQLクエリであることが分かりました。これはAssistantの利用状況を分析するために書いたものでした。ステージングでは問題なく動き、CIにも通り、十分なレビューも受けていましたが、本番環境ではデータベースをダウンさせてしまいました。

公平に言えば、時間の大半は「アラートが鳴っている原因が本当に私たちのデプロイなのか」を判断することに費やされました。それでも、これはAssistant Investigationsの大きな利点を示しています。すなわち、オンコールの人たちが状況を完全に把握するよりも早く、調査を開始し(そして今回は完了までさせ)ることができるのです。

インシデント:AIが生成したコードが本番データベースへ入り込む

コホート分析(cohort analysis)の、その「無害」なSQLクエリは、負荷がかかると膨れ上がる無制限な結合(unbounded join)を作り、データベース接続を飽和させ、CPUをスロットリングしました。

オンコールエンジニアはデプロイをロールバックし、SQLログを確認し、影響を受けたクラスタを再起動しました。

同時に、Assistant Investigationsはバックグラウンドで動作し、複数の仮説を並行して検証していました。ログ、メトリクス、トレース、プロファイルを見て、クエリ量、レイテンシのスパイク、直近のデプロイ差分を比較しました。最終的に、/cohort-analysis エンドポイントが有力な原因であると正確に示しました。

インシデント発生時のSREチームと同様に、このAIシステムは特化したエージェントを配備し、異なる仮説を同時に調査させたのです。

A dashboard showing agent activity with a timeline and a flowchart illustrating multiple specialized agents investigating different hypotheses.

上の図で見えているもの:

  • 複数の調査分岐が並列に実行されている(逐次ではない)
  • 異なるデータソース向けの特化型エージェント(Prometheus、Loki、Tempo)
  • 各仮説に対する信頼度スコア付きの仮説検証
  • メトリクス、ログ、トレース間のクロス相関

私たちは、原因へ到達するために協調して動く特化型エージェントを使っています。メトリクスエージェントはMySQL接続プールのメトリクスを確認し、ロギングエージェントはデプロイのタイミングを検証し、トレーシングエージェントはデータベースのトランザクションパターンを分析しました。これらが並行して機能することで、オンコールチームよりも3.5倍速く、何が起きたかの全体像を構築したのです。

Chat exchange about using investigations for an incident, with a link to the investigation results and a comment on finding the issue.

調査からアクションへ:AIがもたらした成果

Grafana dashboard showing AI analytics with sections on root cause, recommendations, and evidence. Graph displays performance metrics over time.

このAssistant Investigationsレポートの主要要素:

  • 具体的な技術詳細を伴う根本原因の特定
  • 信頼度スコアリング(このケースでは0.91)
  • 寄与要因の内訳(スロークエリ、接続保持など)
  • 監視ガイダンスを伴う実行可能な復旧手順
  • メトリクスを実際の問題へ結びつけるエビデンスの追跡(evidence trail)

この調査は問題を特定するだけではなく、実行可能な提案、信頼度スコア、裏付けとなる証拠を提供しました。これらはすべて1つの中央の場所にまとめられていました(上図のとおり)ですが、ここでは特に重要な2行を強調しておきたいと思います。

  • 根本原因の確認:「Cohort Analysis API exhausted database connection pool across all clusters.(コホート分析APIが、全クラスタにわたりデータベース接続プールを枯渇させた。)」
  • 寄与要因:「Slow tenant limit queries taking 3-4 seconds creating sustained connection hold times.(遅いテナント制限制御クエリが3〜4秒かかり、持続的な接続保持時間を生んだ。)」さらに、具体的な復旧手順と監視ガイダンスも提示されました。

AI生成コードは今後も存在し続ける。どう適切に管理するか?

いまや、ほとんどすべてのチームが、AIが書いた何らかのコードを本番で動かしています。

それが手早いSQLクエリであることもあれば、自動生成されたハンドラや設定ファイルであることもあります。リリースは速くなりますが、誤解もしやすくなります。

結果として、今日の企業は「システムの核心を真に理解できる速度」を上回って、より速くシステムや製品を構築しています。

  • 理解を伴わない速度:コードは増え、文脈(コンテキスト)は減る
  • 自動化バイアス:AIの出力は正しく見えるため、正しいと思い込んでしまう
  • ドメイン専門家の減少:誰もが速く動くが、深く知識を知らない

このAI駆動の生産性は、全体としてはプラスです。そして理想的には、AI生成の1行1行が人間のコードと同じ綿密なレビューを受けるべきです。しかし現実には、それは持続可能ではなく、問題のあるコードはAIでも人間でもすり抜けます。

私たちはAssistant Investigationsを「監視」だけでなく「理解」をスケールさせるために作りました。インシデント前半のノイズが多く混沌とした状況を、エビデンスの道筋へと変えます。そして、あなたが通話に参加する前にすでに、メトリクス、ログ、トレース、プロファイル、MCP統合、クエリプラン、信頼度スコアまで揃っています。

AIのSREツールはエンジニアを置き換えません。エンジニアを拡張するものです。判断は人間が下しますが、いまはより速く、より良いデータで、より少ない仮定で判断できるようになりました。

Assistant Investigationsを今すぐ試す

インシデントの発生頻度は下がらず、AIの進化も止まりません。Assistant Investigationsは、Slackメッセージが鳴り始める前に、アラートをデータと文脈に裏打ちされた調査へ変換し、チームがペースを保つのを助けます。Grafana Cloudで最初の調査を今日試してみてください。

FAQ:Grafana Cloud AI と Assistant

Grafana Assistantとは何ですか? Grafana AssistantはGrafana CloudにおけるAI搭載エージェントで、自然言語を使って、クエリ作成、ダッシュボード構築、トラブルシューティングをより迅速に行えるよう支援します。PromQL、LogQL、TraceQLのクエリ作成、ダッシュボード作成、ガイド付きの根本原因分析などの一般的なワークフローを簡素化します。すべては、あなたがコントロールを保ったまま行えます。詳細は当社のブログ記事をご覧ください。

Grafana Assistant Investigationsとは何ですか? Assistant Investigationsは、Grafana Assistantに直接組み込まれたSREエージェントです。オブザーバビリティスタックを分析し、異常を発見し、システム全体のシグナルを接続することで、根本原因をより速く見つけるのを助けます。復旧のための明確でガイド付きの提案を得られ、Assistantに埋め込まれているため、複雑なインシデントを解決するためのシームレスなエンドツーエンドのワークフローを提供します。

Grafana CloudはオブザーバビリティにAIをどう使っていますか? Grafana CloudのAI機能は、検知・トリアージから説明・解決まで、オブザーバビリティのライフサイクル全体でエンジニアとオペレーターを支援します。私たちは、ワークフローを強化する、説明可能で支援的なAIに注力しています。

Grafana Assistantはどんな問題を解決しますか? Grafana Assistantは、次のことを可能にして、トイル(労苦)を減らし生産性を向上させます:

  • クエリの作成とデバッグの高速化
  • ダッシュボードの構築と最適化
  • Assistant Investigations による問題や異常の調査
  • テレメトリの傾向とパターンの理解
  • より直感的な Grafana のナビゲーション

オブザーバビリティへの AI 組み込みに対する Grafana Labs のアプローチは何ですか?私たちは以下を軸に構築を行っています:

  • 信頼と透明性のための「Human-in-the-loop(人間が介在する)」インタラクション
  • 実際のユーザー価値に焦点を当てた、成果第一(Outcome-first)のエクスペリエンス
  • メトリクス、ログ、トレース、プロファイル間のデータ相関を含む、マルチシグナルサポート

Grafana OSSにAI機能はありますか? デフォルトでは、Grafana OSSにはGrafana Cloudにある組み込みAI機能は含まれませんが、LLMアプリプラグインを使ってAI駆動ワークフローを有効化できます。このオープンソースプラグインは、OpenAIやAzure OpenAIのようなプロバイダーへ安全に接続し、自然言語でクエリ生成、ダッシュボード探索、Grafanaとの対話を可能にします。また、MCP(Model Context Protocol)サーバーも提供し、好みのAIアプリケーションにGrafanaインスタンスへのアクセスを与えられるようにします。

なぜAssistantはオープンソースではないのですか? Grafana Assistantは、企業のニーズをサポートし、大規模なインフラストラクチャを管理するために Grafana Cloud 上で動作します。私たちはOSSにコミットしており、引き続きそこへ多大な投資を行います。LLMプラグインMCPサーバーのオープンソース化も含め、コミュニティがGrafana OSSへ独自のAI体験を組み込めるようにするためです。

Grafana CloudのAI機能は自律的にアクションを起こしますか? 今日の時点では、エンジニアがコントロールを保ったままトイルを減らす、人間参加型(human-in-the-loop)のワークフローに注力しています。しかしAIシステムが成熟し、より信頼できることが示されれば、いくつかのタスクはより少ない監督で済むかもしれません。私たちは、いまは透明で支援的なAIを提供しつつ、妥当な場面ではより自律的な能力へ進化できる柔軟性も支える基盤を構築しています。

GrafanaのAI戦略について、もっと知るには? エンジニアから直接聞けるブログ記事を確認してください。

「オブザーバビリティにおけるAI」と「AIオブザーバビリティ」の違いは? 「オブザーバビリティにおけるAI(AI in observability)」は、より良くシステムを運用するためにAIを適用することを指し、より大きなオブザーバビリティ戦略の一部としてAIを使うことを意味します。これは、プラットフォームに組み込まれたエージェント(例:Grafana CloudのGrafana Assistant)や、システムを観測する方法を自動化・加速する他の統合を含み得ます。

「AIオブザーバビリティ(AI observability)」は、LLMベースのアプリケーションのようなAIシステムの状態を追跡するためにオブザーバビリティを使うことです。これは、データベースのためのデータベースオブザーバビリティや、アプリケーションのためのアプリケーションオブザーバビリティと同様に、特定のユースケースに焦点を当てたサブセットです。

Grafana Cloudは「運用を助けるAI」と、「AIのためのオブザーバビリティ」の両方を提供します。今すぐ無料で登録!

Tags