Grafana Cloudで運用負荷を半減、60サービスを統合監視するグリーが描く新たな監視基盤

2026-01-041 min
Twitter
Facebook
LinkedIn
Blog image

モバイルゲームやメタバース、漫画アプリなど、幅広いエンターテインメント事業を国内外で展開するグリーグループ。かつてはオンプレミスとクラウドを併用するハイブリッド環境でシステム監視を行っていたが、現在はクラウドへの完全移行を完了し、AWSとGoogle Cloudによるマルチクラウド環境で多様なサービスを統合的に監視している。

同社は2015年からOSS版Grafanaを活用してきたが、事業拡大に伴うシステムの複雑化により、監視基盤の運用負荷が増大する課題に直面した。この状況を打開するため、2020年からフルマネージドサービスである「Grafana Cloud」を採用。マルチクラウド環境全体の監視基盤を統一し、運用効率と観測性の向上を実現した。

本記事では、その導入背景から得られた効果、今後の展望までを、株式会社グリー インフラストラクチャ部シニアリードエンジニア・岩堀草平氏に伺った。

───────────

オンプレからクラウドへ、インフラの変化が求めた監視基盤の進化

Blog image

国内外で多岐にわたるエンターテインメント事業を展開するグリーグループ。そのサービス群を支える監視基盤の構築と運用を担うのが、株式会社グリー インフラストラクチャ部内のモニタリングユニットである。

「チームはマネージャーを含め8名体制で、実働は約5名です。少人数でおよそ60のサービスを監視しています。対象はWebプラットフォームからモバイルゲーム、メタバースまで多岐にわたります」(岩堀氏)

同社がGrafanaを導入したのは2015年。当時は、モニタリングシステム「Ganglia」をカスタマイズして運用していたが、全社的なAWSへの移行により、従来の監視基盤では対応が困難になった。サーバーが動的に増減するAWS環境では、監視対象を自動検出するサービスディスカバリー機能が不可欠だったため、同社は当時まだ新しかったGrafanaとPrometheusのスタックを採用するに至った。

その後、5年を経てグローバル展開するタイトルを中心にGKE(Google Kubernetes Engine)の利用が始まると、さらなる課題が生じた。Kubernetes環境特有の高カーディナリティ(データセット内のユニークな値の多さ)により、Prometheusが高負荷で停止する事象が発生したのである。

「加えて、オンプレ環境で使用していたGangliaも、基盤となるPython 2系のEOL(End of Life)により継続利用が困難になりました。オンプレにはなお約1,500台のサーバーが稼働しており、監視品質を維持しながら運用を続ける必要がありました。このような状況を受け、監視基盤全体のリプレースを決断したのです。複雑化する環境に対応しつつ運用負荷を軽減できるマネージドサービスとして、『Grafana Cloud』の導入検討を開始しました」(岩堀氏)

───────────

なぜGrafana Cloudだったのか? 2つの選定ポイント

GKEの本格利用開始とオンプレミス環境の老朽化を背景に、グリーグループは監視基盤の抜本的な見直しを迫られた。限られた人員で新たな基盤を構築・運用することは大きな負担であり、同社は運用負荷を根本から解消する手段としてマネージドサービスの導入を決断した。

複数の主要ベンダーを比較検討した結果、最終的に選定されたのはGrafana Cloudである。その決め手の一つとなったのが、コスト面での優位性だった。

「弊社では、これまで独自のカスタムメトリクスを多数活用してきました。他社のサービスではカスタムメトリクスを追加するごとにコストが増大する傾向がありましたが、Grafana Cloudはその点で非常に優れていました」(岩堀氏)

もう一つの大きな決め手となったのが、同社がAWS環境でOSS版Grafanaを活用し、独自の監視環境を作り込んできた実績である。AWS上では、すでにOSS版をベースに高度な監視基盤を構築しており、運用も成熟していた。ただ、新たにGKE環境でも同レベルの仕組みをゼロから再構築するとなれば、相応の工数と人的リソースが必要になる。それは現実的に大きな負担であった。

その点、マネージドサービスのGrafana Cloudであれば、インフラ構築や保守運用の負荷を避けつつ、開発者が慣れている操作感や、既存のダッシュボード資産をGKE側にそのまま適用できる。これまで積み上げてきた知見を最大限に活かしながら、構築工数を大幅に圧縮できること。この“再現性の高さ”と“効率性”こそが、採用を決定づけた要因となったのである。

GKE環境では、Helmチャート「kube-prometheus-stack」を用い、「リモートライト」機能によってGrafana Cloudにメトリクスを直接送信する構成を採用している。この仕組みにより、運用負荷の高いデータストア部分を完全にクラウド側へ委譲することに成功した。長年にわたり蓄積された監視運用の知見と、マネージドサービスならではの高い運用効率。その両立を実現できる点こそが、Grafana Cloud採用の決定的な後押しとなったのである。

───────────

安定稼働とコスト最適化、事業フェーズに応じたデータ活用

Grafana Cloudの導入により、グリーグループの監視体制は大きく進化した。最大の成果は、監視業務における運用負荷の大幅な軽減である。

「もしGrafana Cloudを導入せず、従来通り内製で対応していたら、監視チームの規模は倍になっていたと思います。Grafana Cloudの導入により、少人数体制のままAWSとGCPという二つのクラウド環境をカバーできました。さらに、メトリクスの増加にも柔軟に対応でき、ストレージ容量を気にする必要もなくなりました。手作業による運用から解放されたことは、非常に大きな成果です」(岩堀氏)

この運用効率の向上は、M&Aなどで新たなサービスが加わる際にも効果を発揮している。OSS版を自社で運用していた頃に比べ、基盤構築にかかる作業負荷は格段に減少した。また、既に社内で定着していたGrafanaをそのまま活用できたことも、オンプレミスからクラウドへの移行を円滑に進める要因となった。

さらに、Grafanaが掲げる「データの民主化」という理念は、同社の開発文化にも深く浸透している。特別なトレーニングを受けなくても、開発者自身が必要なデータへ自由にアクセスし、可視化・分析できる環境が整っている。これにより、各チームが主体的に課題を発見し、改善に取り組む文化が醸成されているという。

「安定稼働しているサービスではコスト最適化を、新規サービスでは障害の早期検知を目的に、開発者が自らデータを可視化し、最適な監視設計を行っています。こうした自律的な取り組みを支えられるのがGrafanaの大きな価値です」(岩堀氏)

Grafana Cloudという強固な基盤を得たことで、モニタリングユニットの役割は「監視ツールの提供者」から、開発組織全体のデータ活用を支援する「オブザーバビリティ推進者」へと進化を遂げた。

───────────

監視から観測へ。Grafanaと目指すオブザーバビリティの実現

Blog image

Grafana Cloudの導入により、ハイブリッドクラウド環境における監視基盤の統一を実現したグリーグループ。現在、同社は次なる段階として「オブザーバビリティの強化」に取り組んでいる。

「今後はOpenTelemetryへの対応を強化し、Tempoによるトレーシングとメトリクスを連携させていきたいと考えています。また、これまでの内部監視に加えて、Synthetics Monitoringによる外形監視を強化し、ユーザー体験に直結するサービス品質をより正確に把握していく方針です」(岩堀氏)

さらに、同社が注目しているのが「Grafana Scenes」である。動的なダッシュボードを構築できる新しいフレームワークであり、従来の「Scripted Dashboard」の後継として位置づけられている。

「Grafana Scenesはまだ検証段階ですが、実用化されればユーザーの操作に応じて表示内容を変化させる、よりインタラクティブなダッシュボードが構築可能になります。監視対象が複雑化する中で、このような動的可視化の技術は今後ますます重要になると考えています」(岩堀氏)

また、eBPFを活用したアプリケーション内部の可視化など、先進的な観測技術の検証にも積極的だ。これらの取り組みが実現すれば、開発者はパフォーマンスのボトルネックやユーザー影響の大きいリクエストを容易に特定でき、結果としてプロダクト全体の信頼性向上に直結するだろう。Grafanaが「データの民主化」をもたらしたように、今後は「オブザーバビリティの民主化」を実現し、開発者一人ひとりがデータに基づく自律的な改善を行える文化の醸成を目指している。これこそが、グリーグループがGrafanaと共に描く未来像である。

現在では、Grafana Cloudがグリーグループの監視基盤に深く根付いているが、岩堀氏は「メトリクス活用の知見が乏しい企業にこそGrafanaは有効だ」と語る。

「今はメトリクスを容易に収集できる時代ですが、重要なのはデータをどう可視化し、どのように課題解決へ活かすかです。Grafanaはその点で非常に柔軟かつカスタマイズ性に優れています。データはあるものの活用しきれていないと感じている企業には、ぜひ試してもらいたいですね」(岩堀氏)

クラウドシフトや多様化するインフラ環境に柔軟に対応し、少人数で大規模なサービス群の監視を支えるグリー。その挑戦を支えてきたGrafanaは、今後も同社の成長に欠かせないパートナーとして、ともに進化を続けていく。