Node Exporter Dashboard 220417 通用Job分组版

使用Grafana8新表格重建，新增健康评分概念，并新增了整体资源消耗信息的一些图表。优化重要指标展示，包含整体资源展示与资源明细图表：CPU 内存磁盘 IO 网络等监控指标。https://github.com/starsliao/ConsulManager

Overview
Revisions
Reviews
Edit →

grafana8.4.7+ 版本正常，如果导入出现异常，请先更新到以上版本grafana。

该版本是原基于Job分组的通用版本，本次主要更新：使用Grafana8新表格重建，纵览表新增ECS健康评分概念，新增了整体资源消耗信息的一些图表，用于资源成本优化参考。
★★★推荐使用ECS自动同步版：通过ConsulManager来管理云厂商的ECS监控：支持自动同步采集云厂商的ECS信息(包括到期日)与分组信息，并且针对自动采集的这些字段来做更加友好的展示。参考：https://grafana.com/grafana/dashboards/8919

字段说明：

新增数据源变量origin_prometheus，取自于Prometheus的外部系统标签：external_labels，可用于支持多个Prometheus接入VictoriaMetrics或Thanos等第三方存储使用remote_write方式的场景。(默认取值空，指标中无该标签不影响使用)
增加时间间隔变量interval，所有曲线图关联该变量，可根据需要选择时间间隔来调整曲线图的粒度。注意Prometheus的采集周期，如果rate时间间隔内少于2个值，曲线图无法展示，当等于2个值时rate即为irate。（默认时间间隔设置为2分钟，如果你的Prometheus采集周期大于1分钟，曲线图会无法展示，把时间间隔选大一点即可。）

注意:【最近7天P99资源使用率】图表需要在Prometheus增加记录规则(采集1小时后出数据)：

groups:   #新rule文件需要加这行开头，追加旧的rule文件则不需要。
- name: node_usage_record_rules
  interval: 1m
  rules:
  - record: cpu:usage:rate1m
    expr: (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[3m])) by (job,instance)) * 100
  - record: mem:usage:rate1m
    expr: (1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100

赞赏与关注公众号【云原生DevOps】加入运维群交流，获取更多…

GitHub：https://github.com/starsliao/Prometheus

截图

新增的资源总览页截图
资源明细页截图

【update】：

2022/04/17

使用Grafana8新表格重建。
总览表新增ECS健康评分概念。
新增了整体资源消耗信息的一些图表，用于资源成本优化参考。
优化重要指标展示，包含整体资源展示与资源明细图表：CPU 内存磁盘 IO 网络等监控指标。

2020/10/10

数据源变量去掉了ALL，以解决点击汇总表格中的超链接异常的问题。

2020/10/03

资源总览表中增加了5分钟负载、TCP连接数、timewait数、主机总数，去除了分页。
修复了资源总览表中超链接到资源明细的问题。
替换所有irate为rate，增加时间间隔变量，可自行控制曲线图粒度，详细请看上方重要更新说明。
增加数据源变量，用于支持多Prometheus，详细请看上方重要更新说明。
修改了资源总览图表的描述说明，鼠标移至表格左上角的**i**即可查看。

2020/06/28

资源总览页的表格中增加了5分钟负载值。
调整了资源总览页的资源明细链接，可在当前窗口切换各主机明细。
调整了变量菜单的选项，Instance多选则可在明细页同时查看多个主机。
node_exporter 1.0.1测试使用正常。

2020/05/30

增加了整体主机资源情况的表格明细，以及整体主机资源的统计曲线图。默认收缩，可按Job分组，可直接链接到指定主机明细。(参考截图)
取消了主机温度的图表，增加了每小时流量的图表。
修正了磁盘使用率的计算和df命令的算法保持一致。
优化了部分图表的计算时长取值，加快加载速度，调整了部分图表曲线展示效果与位置。

2019/11/2

调整了网络连接信息的展示指标与描述，使其更具实用性。
修改了node_disk_io_time_seconds_total指标的展示与描述。
每次I/O读写耗时的图表增加了参考值。
优化了部分曲线图的展示效果，固定了部分线条的颜色。

2019/10/30

取消了需要手动安装的饼图，把原来磁盘信息的饼图整合到了磁盘表格信息中。
增加了一个Bar Gauge来实时展示cpu内存等信息。
增加了打开上下文切换与打开文件数的曲线图。
把磁盘监控与cpu使用率的图分开。
对整个看板的大部分图表做了展示效果的调整与优化，加强实用性与兼容性。
修复了同时展示多个服务器部分图表报错的问题。

2019/7/1

增加了磁盘分区的使用率曲线图。
优化了数据展示效果。
使用Grafana 6.2.5 测试使用正常。

2019/5/20

增加了服务器列表多选支持，曲线图可以展示多台服务器的数据。
优化了变量的展示效果。
优化了部分监控指标的描述说明，点击各图表左上角的“i”即可查看。

2019/1/9

修复了一个展示内存使用量不准确的bug。
增加了更新node_exporter和仪表板的外链。
Grafana v5.4.2 + node_exporter 0.16 、node_exporter 0.17 、node_exporter 0.18 测试使用正常。

11/16

增加了变量的说明。
优化了新安装看板后的展示速度。

11/15

增加各环境对服务器分组。
增加饼图，磁盘总空间。
增加当前打开文件描述符。
增加部分监控指标的描述。
优化部分指标的显示结果。

11/13

增加磁盘每秒的I/O操作耗费时间占比图形。

Dashboard revisions

Revision	Decscription	Created
			Download

Reviews

Reviews from the community

Get this dashboard

Data source:

Dependencies:

Import the dashboard template:

Download JSON

Docs: Importing dashboards

Downloads: 5,627

Feedback