Alerts and IRM

Alerting

Additional configuration

Meta monitoring

Grafana Cloud

Meta monitoring for Cloud

Meta monitoring is the process of monitoring your monitoring system (or alerting system).

Monitor your alerting implementation to understand its health, detect potential issues, and troubleshooting.

Grafana provides predefined metrics and logs to enable you to meta monitor Grafana Alerting. You can monitor this data in different ways, such as:

[Optional] Create a Grafana dashboard with a panel that uses these metrics, similar to Alerting Insights.
[Optional] Create an alert rule in Grafana that checks a metric regularly, just like any other alert rule.
[Optional] Use Explore to query the metrics or logs.

Before you begin

To explore your alerting metrics and logs, you must:

Have Admin or Editor user permissions for the managed Grafana Cloud instance.
Log in to your instance and click the Explore (compass) icon in the sidebar menu.

Explore insights metrics

Alerting meta-monitoring metrics are stored in Prometheus data sources, which are part of your Grafana Cloud stack and are accessible from your Grafana instance.

Note
A single Grafana Cloud account can run multiple Grafana Cloud stacks, all using the same grafanacloud-usage data source. When querying meta-monitoring metrics in the grafanacloud-usage data source, filter by your Grafana stack identifier (id).

For Grafana-managed alerts

Available in the grafanacloud-usage Prometheus data source.

`grafanacloud_grafana_instance_alerting_rule_group_rules`

The number of alert rules, labeled by Grafana stack (id) and alert rule state (state).

sum by(state) (grafanacloud_grafana_instance_alerting_rule_group_rules{id="<your_grafana_stack_id>"})

The state label can be active or paused.

`grafanacloud_grafana_instance_alerting_alerts`

The number of alert instances, labeled by Grafana stack (id) and alert instance state (state).

sum by(state) (grafanacloud_grafana_instance_alerting_alerts{id="<your_grafana_stack_id>"})

The state label can be alerting, error, nodata, normal, or pending.

`grafanacloud_grafana_instance_alerting_rule_evaluations_total:rate5m`

The per-second rate of alert rule evaluations over the last 5 minutes, labeled by Grafana stack (id).

grafanacloud_grafana_instance_alerting_rule_evaluations_total:rate5m{id="<your_grafana_stack_id>"}

`grafanacloud_grafana_instance_alerting_rule_evaluation_failures_total:rate5m`

The per-second rate of failed alert rule evaluations over the last 5 minutes, labeled by Grafana stack (id).

grafanacloud_grafana_instance_alerting_rule_evaluation_failures_total:rate5m{id="<your_grafana_stack_id>"}

`grafanacloud_grafana_instance_alerting_state_history_writes_failed_total:rate5m`

The number of failed writes to the alert state history backend over the last 5 minutes, labeled by Grafana stack (id) and backend type (backend). Use this metric to monitor the health of your alert state history configuration and detect issues with data source connectivity or authentication. Only backend="prometheus" failures are tracked in this metric, which correspond to failed writes of the GRAFANA_ALERTS metric.

grafanacloud_grafana_instance_alerting_state_history_writes_failed_total:rate5m{id="<your_grafana_stack_id>", backend="prometheus"}

For Grafana Alertmanager

Available in the grafanacloud-usage Prometheus data source.

`grafanacloud_grafana_instance_alerting_alertmanager_alerts`

The number of alerts received by the Grafana Alertmanager for notification processing, labeled by Grafana stack (id) and alert notification state (state).

sum by(state) (grafanacloud_grafana_instance_alerting_alertmanager_alerts{id="<your_grafana_stack_id>"})

The state label can be active, suppressed, or unprocessed.

`grafanacloud_grafana_instance_alerting_silences`

The number of silences, labeled by Grafana stack (id) and silence state (state).

sum by(state) (grafanacloud_grafana_instance_alerting_silences{id="<your_grafana_stack_id>"})

The state label can be active, expired, or pending.

`grafanacloud_grafana_instance_alerting_notifications_total:rate5m`

The per-second rate of alert notifications over the last 5 minutes, labeled by Grafana stack (id) and integration type (integration).

grafanacloud_grafana_instance_alerting_notifications_total:rate5m{id="<your_grafana_stack_id>"}

`grafanacloud_grafana_instance_alerting_notifications_failed_total:rate5m`

The per-second rate of failed alert notifications over the last 5 minutes, labeled by Grafana stack (id) and integration type (integration).

grafanacloud_grafana_instance_alerting_notifications_failed_total:rate5m{id="<your_grafana_stack_id>"}

For Mimir alerts

Meta-monitoring metrics for Mimir alert rules are stored in the grafanacloud-usage and grafanacloud-<yourstackname>-prom Prometheus data sources.

You can find these metrics in Alerting insights.

In your Grafana Cloud stack, click Alerts & IRM in the left-side menu.
Click Alerting.
On the Alerting landing page, view the Insights tab.
Select a panel from the Mimir sections.
Click the menu icon (three-dots).
Click Explore to view the metrics and the data source queried by the panel.

Explore alerting logs

Alerting logs are stored in Loki data sources, which are part of your Grafana Cloud stack and are accessible from your Grafana instance.

For Grafana-managed alert state changes

Logs related to state changes in Grafana-managed alerts are stored in the grafanacloud-<yourstackname>-alert-state-history Loki data source.

To explore these logs, complete the following steps.

In Explore, select the grafanacloud-<yourstackname>-alert-state-history Loki data source.

Use the Loki query editor to find logs.

{from="state-history"} | json

{from="state-history"} | json | previous=~"Normal.*" | current=~"Alerting.*"

{from="state-history"} | json | current=~"Error.*"

Click Run query.
In the Logs section, review specific details about alerts by selecting relevant fields:
- previous: previous alert instance state.
- current: current alert instance state.
- ruleTitle: alert rule title.
- ruleID and ruleUID.
- labels_alertname, labels_new_label, and labels_grafana_folder.
- Additional available fields.

Alternatively, you can access the History page in Grafana to visualize and filter state changes for individual alerts or all alerts.

For Mimir alerts

Logs for Mimir-managed alerts are stored in the grafanacloud-<yourstackname>-usage-insights Loki data source.

These logs help you troubleshoot alerts by providing insight about their notification status. They display error messages for failing alerts.

To explore these logs, complete the following steps.

In Explore, select the grafanacloud-<yourstackname>-usage-insights Loki data source.
Use the Loki query editor to find logs. The following query retrieves all alert logs:
```
{instance_type="alerts"} | logfmt
```
Click Run query.
In the Logs section, review specific details about alert logs by selecting relevant fields such as msg, alert, or alerts.

Was this page helpful?

Email docs@grafana.com

Help and support

Community

Meta monitoring for Cloud

Before you begin

Explore insights metrics

For Grafana-managed alerts

grafanacloud_grafana_instance_alerting_rule_group_rules

grafanacloud_grafana_instance_alerting_alerts

grafanacloud_grafana_instance_alerting_rule_evaluations_total:rate5m

grafanacloud_grafana_instance_alerting_rule_evaluation_failures_total:rate5m

grafanacloud_grafana_instance_alerting_state_history_writes_failed_total:rate5m

For Grafana Alertmanager

grafanacloud_grafana_instance_alerting_alertmanager_alerts

grafanacloud_grafana_instance_alerting_silences

grafanacloud_grafana_instance_alerting_notifications_total:rate5m

grafanacloud_grafana_instance_alerting_notifications_failed_total:rate5m

For Mimir alerts

Explore alerting logs

For Grafana-managed alert state changes

For Mimir alerts

Was this page helpful?

Related resources from Grafana Labs

`grafanacloud_grafana_instance_alerting_rule_group_rules`

`grafanacloud_grafana_instance_alerting_alerts`

`grafanacloud_grafana_instance_alerting_rule_evaluations_total:rate5m`

`grafanacloud_grafana_instance_alerting_rule_evaluation_failures_total:rate5m`

`grafanacloud_grafana_instance_alerting_state_history_writes_failed_total:rate5m`

`grafanacloud_grafana_instance_alerting_alertmanager_alerts`

`grafanacloud_grafana_instance_alerting_silences`

`grafanacloud_grafana_instance_alerting_notifications_total:rate5m`

`grafanacloud_grafana_instance_alerting_notifications_failed_total:rate5m`