Grafana Labs共同創業者Woodsが語る:市場の成熟、OpenTelemetry、AIが変えるオブザーバビリティの未来

Grafana Labs共同創業者Woodsが語る:市場の成熟、OpenTelemetry、AIが変えるオブザーバビリティの未来

2025-09-261 min
Twitter
Facebook
LinkedIn

組織がますます複雑化する技術環境を舵取りする中で、統合されたオブザーバビリティの運用体制を整えることは不可欠になっています。

これは、Grafana Labsの共同創業者であるAnthony Woodsが、Mercari Indiaのプラットフォームエンジニアリング責任者、Vaibhav Khurana氏がホストを務めるポッドキャスト「Tech Keys by Mercari India」に出演した際の主要なトピックの一つでした。

「世の中には多くの『技術的負債』が存在します。多種多様なツールが乱立し、チームごとに異なるものを使っている状況を打破しなければなりません。その解決策となるのが、すべてのデータを一箇所に集約できる『統合オブザーバビリティプラットフォーム』だと私たちは考えています」とWoodsは語ります。

二人は、オブザーバビリティの新たなトレンドや、第3回年次調査の重要なインサイトについて議論しました。Grafana CloudのユーザーでもあるKhurana氏は、現在、オブザーバビリティの「推進母体」となる専門チームの立ち上げを進めており、これは対談の中で強調された業界の先進的なプラクティスとも一致しています。

対談の全文は以下のエピソードから視聴いただけます。本記事では、オブザーバビリティの進化、OpenTelemetryの重要性、そしてAIの役割に関するWoodsの見解など、ハイライトをまとめてお届けします。

Video

モニタリング vs. オブザーバビリティ

Khurana氏: あなたの視点から見て、モニタリングがオブザーバビリティへと移行したのはいつ頃だと思いますか?また、その二つの違いは何だと考えていますか?

Woods: 大きな原動力となったのは、マイクロサービスへの移行です。ソフトウェアの複雑さが増し、単に「動いているかどうか(Up/Down)」を知るだけでは不十分になりました。システムが壊れたときだけでなく、どのように動作しているかを深く理解し、トラブルシューティングに役立てるためのインサイトを得るには、テレメトリデータが不可欠です。

私たちは、あらゆるテレメトリに価値があると確信しています。「オブザーバビリティの3本柱」であるメトリクス、ログ、トレースに加え、次なる柱として継続的プロファイリング(Continuous Profiling)にも非常に期待していますが、そのすべてが重要です。メトリクスは、環境内のトレンドや変化を素早く把握するための「ハイレベルな概況」を提供してくれます。

しかし、より詳細な情報が必要な場面もあります。ログは古くから馴染みのある扱いやすいデータですが、マイクロサービス間をリクエストがどう流れるかを把握するには、分散トレースが大きな力を発揮し、多くのインサイトを与えてくれます。

データの過負荷、コスト、そして価値への対処

Vaibhav氏: オブザーバビリティ調査の結果で目を引いたのは、エグゼクティブ層(経営層)の関心が高まっているというトレンドです。以前は現場のエンジニアやテックリード、ディレクター層が中心でしたが、今はCXOたちも注目しています。これについてはどう思われますか?

Woods: 確かに、お客様や業界全体と接する中でその変化を実感しています。大きな理由の一つは、このテクノロジーが「キャズムを越え」、アーリーアダプターからメインストリーム(普及期)へと移行しているからです。

アーリーアダプターは、新しい技術を愛し、自ら最新のツールを探して組織に取り入れる現場の実務家たちです。一方で、そこまでのリソースを割けない他の組織は、少し離れた場所で「何が定着し、何が効果的なのか」を見守っていました。彼らは、アーリーアダプターが新しいオブザーバビリティの取り組みを導入して成功し、価値を得ているのを目の当たりにしました。自分たちもその価値を手に入れたいと考え始めたのです。しかし、そうした組織のテクノロジー導入プロセスは非常に異なり、よりトップダウンで行われる傾向があります。

Khurana氏: ツールを導入するにはコストがかかります。「いくら払う必要があるのか」「そのソフトウェアに支払う価値があるのか」という点は常に議論になります。自分たちの環境で自前運用すれば済む話ではないでしょうか?なぜ単なるログファイルとgrepだけではダメなのでしょうか?なぜGrafanaや他のシステムにお金を払う必要があるのでしょうか?

Woods: 最近の業界の傾向として、「コスト」と「得られる価値」の間に大きなギャップが生じているのは事実です。これは、私たちの調査でも「コストの爆発を抑えつつ、いかに価値を得るか」という懸念として明確に表れています。

私たちはオープンソースを最高のものにしたいと考えており、そこには計り知れない価値があります。コストも非常に低いですが、エンジニアのリソースを割く必要があるため決してゼロではありません。私たちのビジネスは「価値を届けること」です。コストはもちろん重要ですが、私たちがフォーカスしたいのは価値です。「あなたのオブザーバビリティ戦略から価値を得られていますか?」「それは役立っていますか?」これこそが最も重要な問いです。

ソフトウェアの作り方が変わり、マイクロサービスへと移行する中で、過去に使っていたツールが新しいモデルに適合しなくなっているという業界の潮流があります。コスト構造も全く異なってきます。

オブザーバビリティは一つの「旅(ジャーニー)」であり、すべての組織がその途上にあります。旅の初期段階では、将来どのようなデータが必要になるかさえ分からないことも多いでしょう。

SLO主導のシグナルとOpenTelemetry

Khurana氏: 「アラート疲弊」に対処するために、Grafana Labsが進めている新しい取り組みや、業界全体の変化について教えてください。

Woods: 一つはSLO(サービスレベル目標)の活用、もう一つはインシデント対応プロセスの成熟です。今回の調査で特にAPAC(アジア太平洋)地域に顕著だったのは、「明確に定義されたインシデント対応プロセスの欠如」がオブザーバビリティ向上の大きな妨げになっていると考えている人の割合が非常に高いことでした。

問題が発生した際、私たちが本当にしたいのは「根本的な解決」です。これはSREモデルの核心でもあります。単にサービスを再起動して一旦復旧させることをするだけでは、またすぐに再発してしまいます。その場しのぎの対応を行い続けるのではなく、時間をかけて本当の根本原因(Root Cause)を理解し、修正することに注力すべきなのです。

Khurana氏: 私のサービスは順調でも、依存している他チームのサービスにダッシュボードがなかったり、運用体制が未熟だったりして困ることがよくあります。ツールはこの状況をどう解決できるのでしょうか?

Woods: それも調査で浮き彫りになった「技術的負債」の問題ですね。解決策は、やはり「統合オブザーバビリティプラットフォーム」です。すべてのデータを一箇所に集約できる場所を持つこと、それが理想の姿です。

特にオブザーバビリティにおいては、オープンな標準規格や「ベンダーに依存しない」ツールの採用が進んでいることは非常に重要です。

多くの人が、レガシーなモニタリングツールが現代のソフトウェア開発に合わず、コストも高く、移行も大変だという「痛み」を抱えています。だからこそ、私たちはOpenTelemetryのエコシステムに非常に期待しています。アプリケーションの計装(インストルメンテーション)は重労働です。それを「一度行えば済む」ようにし、どのベンダーにデータを送るかを自由に決められ、将来的に計装をやり直すことなく柔軟に変更できる自由を持つべきです。

全組織の73%がOpenTelemetryやオープンな標準規格、そしてPrometheusエコシステムに注目、あるいは利用しています。両方を併用している組織も多く、これは素晴らしいことです。特定のベンダーにロックインされず、選択肢と柔軟性を持って長期的なオブザーバビリティ戦略を立てられることは、極めて大きな価値となります。

AIとオブザーバビリティ

Woods: 生成AIの領域に入り、データの内容を理解し、推奨事項を提示できるようになりつつあります。

Khurana氏: AIについて、あなたはどう考えていますか?

Woods: 間違いなく世界を変えるでしょう。非常に大きなインパクトがあるはずです。正直に言うと、10ヶ月前の私は懐疑的でした。しかし、私たちの組織内でのイノベーションを通じて、AIから非常に有用な製品機能が生み出されるのを目の当たりにして、今はとてもワクワクしています。

GrafanaCONで発表した「Grafana Assistant」の出来栄えには、私たち自身が驚かされました。これはGrafana Cloud環境に密接に統合された「エージェント型モデル」で構築されています。どのダッシュボードを見ているか、どのような技術スタックを使っているかというコンテキスト(文脈)を理解した上で、データに基づき「次にどこを調査すべきか」を判断し、根本原因を突き止めるエンジニアリングのアプローチをAIが代行します。

エンジニアが自ら探索する代わりに、生成AIが探索を行い、必要な情報だけを教えてくれるようになります。例えば、SLOアラートが発生してオンコール担当者がログインしたときには、AIによる調査の概要と推定される根本原因がすでに提示されている。そんな未来がすぐそこまで来ています。

Grafana Cloudは、メトリクス、ログ、トレース、ダッシュボードなどを始める最も簡単な方法です。私たちは、充実した永久無料枠と、あらゆるユースケース向けのプランを用意しています。今すぐ無料でアカウントを作成しましょう!

Tags