Grafana Cloudへの集約によりオブザーバビリティの簡素化とコスト削減を実現
ドイツ・ハンブルクに本社を置くJimdoは、世界中の何百万もの小規模ビジネスや起業家が、プロフェッショナルなWebサイトやオンラインショップを簡単に構築できるよう支援するプラットフォームを提供しています。同社のプラットフォームはKubernetes上で大規模に稼働しており、複数のリージョンにまたがる世界中の顧客にサービスを提供しています。Jimdoはオブザーバビリティ(可観測性)向上の道のりについて、自社のブログでも詳細を公開しています。舞台裏をより深く知りたい方は、ぜひそちらの記事も併せてご覧ください。

課題
Jimdoのインフラが拡大するにつれ、Prometheus、logz.io、Honeycomb、そしてセルフマネージドのGrafanaが混在する断片的なオブザーバビリティスタックが、インシデント対応の遅延と複雑化を招いていました。エンジニアはツール間の切り替えに時間を取られるだけでなく、問題箇所を特定した後も、バラバラなシステム間でメトリクス、ログ、トレースを関連付けて分析することに苦労していました。さらに、高騰するログのコストとそれに伴う短い保存期間、そしてチーム全体の認知負荷の増大により、オブザーバビリティの拡張は持続不可能な状態に陥っていました。
ソリューション
JimdoはGrafana Cloudに移行することでオブザーバビリティを統合し、メトリクス、ログ、トレースを1つのマネージドプラットフォームに集約しました。このソリューションの主な構成要素は以下の通りです。
- Grafana Cloud Metrics: 長期保存が可能な、Prometheus互換のマネージドモニタリング。
- Grafana Cloud Logs: 30日間の保存期間を備えたログの集約管理。ログからメトリクスを作成する機能も活用。
- Grafana Cloud Traces: トレースデータを統合し、単一のビューでメトリクスやログとの相関分析を可能に。
- Grafana Alloy: データ収集を効率化し、Kubernetesクラスター全体のリソースオーバーヘッドを削減。
- AWS PrivateLink: クラスターからGrafana Cloudへのデータ転送において、高いセキュリティとコスト効率を確保。
「Grafana Cloudで、すべてがつながったオブザーバビリティデータを実際に体験してみると、これまでは石器時代に住んでいたのではないかと感じるほどです」
— Bijan Chokoufe Nejad, Senior Staff Engineer
導入効果
Grafana Cloudへの移行はJimdoのオブザーバビリティを劇的に進化させ、ワークフローの簡素化、コスト削減、そして開発者がより迅速にインサイトを得られる環境を実現しました。主な成果は以下の通りです。
- MTTR(平均修復時間)の大幅な短縮: 統合されたデータの相関分析により、問題解決が迅速化。
- 保存期間の劇的な延長: ログは328%(7日から30日へ)、メトリクスは1200%(1ヶ月から13ヶ月へ)向上。
- 開発チームのエンパワーメント: 各チームによるオーナーシップの向上、事前定義済みダッシュボードの活用、オンボーディングプロセスの改善。
- 運用コストの削減: 複数のサードパーティ製ツールの廃止。
- スケーラビリティの向上とメンテナンスの軽減: セルフマネージドのインフラをマネージドサービスに置き換え。
- 評価期間中、Grafana Labsの卓越したサポートチームによる迅速な支援と、アカウント制限の柔軟な調整により、Jimdoはコストを気にすることなく本番環境の全データを使ってテストを行い、設定を最適化することができました。
「他のベンダーとは異なり、Grafana Labsには(単にマネージャーを満足させるためではなく)開発者を第一に考える『デベロッパーファースト』のアプローチがあります。それが、この長期的なパートナーシップに対する信頼につながりました」
— Heiko Voigt, Tech Lead



