Grafana Labs logo
Search icon

UltimateがGrafana IRMでワークフロー、採用、およびその他の点をどのように改善したか

2023-07-011 min
Twitter
Facebook
LinkedIn

「夜中にページを受け取って目を覚まし、何が起こっているのかわからない。そして、そこで状況を把握する必要があります。どんなタブを開く必要があるのか?ログはどこで見つかるのか?ダッシュボードとメトリクスはどこにあるのか?」

もしあなたが今までにオンコールだったことがあるなら、このリフレインは、シニアソフトウェアエンジニアであるアレクサンダー・ロックゼルによって述べられました。アルティメット、あまりにも馴染みのある話に聞こえるでしょう。エンジニアはしばしば、インシデントが発生すると大慌てで複数のツールを操作し、直そうとして行き来します。

Alexander Rösel headshot

それがまさに、Ultimateがインシデントレスポンス管理(IRM)スタックを再評価することになった理由です。業界をリードする彼らのカスタマーサポート自動化プラットフォームは、企業が顧客満足度を向上させ、AIを使って効率を高めるのを支援します。しかし、Grafana Cloudを採用する前のUltimateのインシデントレスポンスは、自動化とは程遠いものでした。

このQ&Aでは、明確さのために編集されており、Röselと彼の同僚であるプラットフォームエンジニアリングマネージャーのShashi Ravulaが、UltimateがIRMのためにGrafana Cloudに移行した理由と、その取り組みがどのように彼らの関心によって主導されたかについて議論しています。Grafana OnCall. 移行がワークフローの改善、採用の拡大、そしてオンコールデバッグの業務を分担する20人の開発者およびエンジニアチームの間でのコミュニケーションの向上にどのように繋がったか、さらに、Grafana Cloudの使いやすさと機能性が会社全体のチームにこのスタックから価値を引き出させた方法を共有します。

Shashi Ravula headshot

最初にGrafana Cloudに興味を持ったのは何ですか?

レゼル:シャシがGrafana OnCallについて話してくれたとき、私はとても興味を持ちました。私たちはすでに持っていました。グラファナオープンソースツールとして内部で使用していましたが、ダッシュボードやログ、オンコールの関連がさまざまなアプリケーションに分散していたため、それほど頻繁には使用されていませんでした。それがオンコールの開発者にとって多くの負担を生んでいました。

ラヴラ:私たちはGrafana Cloudに移行したいと考えており、コスト最適化も非常に重要なポイントでした。私たちは複数の異なるツールにお金を分散していましたが、[システム] は確かにその役割を果たしていましたが、それらのツールすべてを開発者が実際に理解するのには多くの認知的負荷がかかりました。学習曲線があり、一カ所に十分なドキュメントがありませんでした。

OnCallを採用することでどのように役立ちましたか?

ローゼル:私たちはGrafanaエコシステム内にいるので、アラートを受け取ったときにダッシュボードやウィジェットをそれに添付することができます。このようなこと、OnCall周りのすべての自動化は、本当に役立ちます。

インシデントを一貫して処理する方法があるのは本当に良いことです。インシデントを宣言すると、Slackのグローバルチャネルで発表されるため、人々が自動的に参加するインシデントチャネルがあります。更新はGrafana OnCallからSlackに定期的に投稿されるため、プロセスについて皆に最新情報を伝えるために走り回る必要はありません。そして、Grafana IncidentはSlack、メール、またはGrafanaインターフェースなど、どこにいても他の人が情報を引き出せるようにし、それが大きな影響を与えています。

A Grafana dashboard shows how the number of dashboards has increased since Ultimate migrated to Grafana Cloud.

そして、より広範なGrafana Cloudのエコシステムもこれに寄与しているのですか?

ロゼル:通話中にアラートを受け取るとき、今ではログやメトリクスがあるので、それが私たちなのか、統合している第三者プロバイダーなのかについて、はるかに安心しています。多くの人がダッシュボードを作り始めました。人々がそれをより多く使用し、ますます多くの紹介を求めているのがわかります:PromQLはどのように機能するのか?LogQLはどのように機能するのか?そして、それはプログラマー以外の人からもです。人々は非常に興味を持っており、それが私たちのシステムをよりよく理解するのに本当に役立っているからです。

ラヴラ:Grafana Cloudの魅力の一部は、それらすべての機能を一つのスイートで持てるという考えであり、開発者がダッシュボードやOnCallを通じてナビゲートし、ログやトレースのすぐ隣にあるメトリクスを取得するのが非常に簡単になることです。

エンジニア以外で関心を見ていますか?

ロゼル:カスタマーサクセスは、独自のアラートを設定することができました。彼らは、顧客報告が異常を起こしたり、エラー率が上昇したりした時にすぐに分かるように、ボット用のアラートを作成しました。これは、お客様が何かがおかしいと伝えるまで受動的に待つのではなく、プロアクティブに対応するためのものでした。

A Grafana dashboard shows how the number of active users has increased since Ultimate migrated to Grafana Cloud.

技術チームの間での採用はどのようになっていますか?

ラヴラ:私たちは非常にスリムなプラットフォームチームを目指しており、製品チームがセルフサービスを利用できるようにする一方で、すべてのことを手取り足取り指導するわけではありません。そして、Grafana Cloudの導入後のある時点で、「自分たちで構築できる」と言う文化の変化が生じました。アレックスが示した例は本当に重要で、Customer SuccessチームがGrafana Cloudにより関与していると感じることが時々ありました—そしてグラファナアラーティング、具体的には—エンジニア自身よりも。そしてそれはエンジニアにプレッシャーをかけ、「ねえ、これらの人々が自分のことをしているとき、なぜ私たちはそれをして、私たちのプラットフォームをもっと良くできないのか?」と言わせました。

数値で

ダッシュボード

  1. 古いシステム: ~20
  2. Grafana Cloud: 70

アクティブユーザー

  1. 古いシステム:〜15
  2. Grafana Cloud: ~50

ログボリューム

  1. 旧システム:7.8GB(変動あり)
  2. Grafana Cloud: 28GB

データソース

  1. 古いシステム: 1
  2. グラファナクラウド: 22; Google Cloud Logs、Google Cloud Monitoring、Githubの統計とリリース、Sentryの問題、Apache DevLakeなどを含む。

では、UltimateとGrafana Cloudの次のステップは何ですか?

(注:Ultimateは現在使用していますGrafana Cloud ログ, Grafana Cloud k6、およびGrafanaのIRMツール。今後、彼らは採用を検討していますグラファナファロそして、トレースをプッシュすることによって、Sentry APMサービスのコストを削減します。Grafana Cloud トレース。)

ラブル:私たちはGrafana Cloud Tracesの立ち上げを開始しています。これは、長い間私たちの会社に欠けていた観測可能性スタックの柱の一つになるため、最も重要な付加価値の一つとなるでしょう。それが整えば、キャパシティプランニングやパフォーマンスのボトルネック、トラブルシューティング、根本原因分析でどこがより効率的になれるかを見極めたいと考えています。これにより、MTTRやその他のDevOpsの数値にも影響を与えることになります。

Blog image

私たちは、監視の成熟度レベルにおいてまだ目標に達していないことを認識しており、現在のSLI、SLO、SLAのフレームワークも改善したいと考えています(デモを見ましたが、Grafana SLO)、しかし、OnCallに関して言えば、Grafana Labsは私たちのリクエストに時間通りに対応し、フィードバックに即座に行動してくれている点で素晴らしい仕事をしていると思います。私たちはその進展に非常に満足しており、これがインシデント管理のための包括的なオブザーバビリティスイートとなることを確信しています。

Grafana Cloudは、メトリクス、ログ、トレース、およびダッシュボードを始める最も簡単な方法です。私たちは、永遠に無料の寛大なプランと、すべてのユースケースに対応するプランを提供しています。今すぐ無料でサインアップ

Tags