← All dashboards

Node Exporter Dashboard 220417 通用Job分组版

使用Grafana8新表格重建,新增健康评分概念,并新增了整体资源消耗信息的一些图表。优化重要指标展示,包含整体资源展示与资源明细图表:CPU 内存 磁盘 IO 网络等监控指标。https://github.com/starsliao/ConsulManager

grafana8.4.7+ 版本正常,如果导入出现异常,请先更新到以上版本grafana。

  • 该版本是原基于Job分组的通用版本,本次主要更新:使用Grafana8新表格重建,纵览表新增ECS健康评分概念,新增了整体资源消耗信息的一些图表,用于资源成本优化参考。
  • ★★★推荐使用ECS自动同步版:通过ConsulManager来管理云厂商的ECS监控:支持自动同步采集云厂商的ECS信息(包括到期日)与分组信息,并且针对自动采集的这些字段来做更加友好的展示。参考:https://grafana.com/grafana/dashboards/8919

字段说明:

  • 新增数据源变量origin_prometheus,取自于Prometheus的外部系统标签:external_labels,可用于支持多个Prometheus接入VictoriaMetrics或Thanos等第三方存储使用remote_write方式的场景。(默认取值空,指标中无该标签不影响使用)
  • 增加时间间隔变量interval,所有曲线图关联该变量,可根据需要选择时间间隔来调整曲线图的粒度。注意Prometheus的采集周期,如果rate时间间隔内少于2个值,曲线图无法展示,当等于2个值时rate即为irate(默认时间间隔设置为2分钟,如果你的Prometheus采集周期大于1分钟,曲线图会无法展示,把时间间隔选大一点即可。)

注意:【最近7天P99资源使用率】图表需要在Prometheus增加记录规则(采集1小时后出数据):
groups:   #新rule文件需要加这行开头,追加旧的rule文件则不需要。
- name: node_usage_record_rules
  interval: 1m
  rules:
  - record: cpu:usage:rate1m
    expr: (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[3m])) by (job,instance)) * 100
  - record: mem:usage:rate1m
    expr: (1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100

赞赏与关注公众号【云原生DevOps】加入运维群交流,获取更多…

GitHub:https://github.com/starsliao/Prometheus


截图

新增的资源总览页截图
资源明细页截图


【update】:

2022/04/17

  1. 使用Grafana8新表格重建。
  2. 总览表新增ECS健康评分概念。
  3. 新增了整体资源消耗信息的一些图表,用于资源成本优化参考。
  4. 优化重要指标展示,包含整体资源展示与资源明细图表:CPU 内存 磁盘 IO 网络等监控指标。

2020/10/10

  1. 数据源变量去掉了ALL,以解决点击汇总表格中的超链接异常的问题。

2020/10/03

  1. 资源总览表中增加了5分钟负载、TCP连接数、timewait数、主机总数,去除了分页。
  2. 修复了资源总览表中超链接到资源明细的问题。
  3. 替换所有iraterate,增加时间间隔变量,可自行控制曲线图粒度,详细请看上方重要更新说明。
  4. 增加数据源变量,用于支持多Prometheus,详细请看上方重要更新说明。
  5. 修改了资源总览图表的描述说明,鼠标移至表格左上角的**i**即可查看。

2020/06/28

  1. 资源总览页的表格中增加了5分钟负载值。
  2. 调整了资源总览页的资源明细链接,可在当前窗口切换各主机明细。
  3. 调整了变量菜单的选项,Instance多选则可在明细页同时查看多个主机。
  4. node_exporter 1.0.1测试使用正常。

2020/05/30

  1. 增加了整体主机资源情况的表格明细,以及整体主机资源的统计曲线图。默认收缩,可按Job分组,可直接链接到指定主机明细。(参考截图)
  2. 取消了主机温度的图表,增加了每小时流量的图表。
  3. 修正了磁盘使用率的计算和df命令的算法保持一致。
  4. 优化了部分图表的计算时长取值,加快加载速度,调整了部分图表曲线展示效果与位置。
2019/11/2
  1. 调整了网络连接信息的展示指标与描述,使其更具实用性。
  2. 修改了node_disk_io_time_seconds_total指标的展示与描述。
  3. 每次I/O读写耗时的图表增加了参考值。
  4. 优化了部分曲线图的展示效果,固定了部分线条的颜色。
2019/10/30
  1. 取消了需要手动安装的饼图,把原来磁盘信息的饼图整合到了磁盘表格信息中。
  2. 增加了一个Bar Gauge来实时展示cpu内存等信息。
  3. 增加了打开上下文切换与打开文件数的曲线图。
  4. 把磁盘监控与cpu使用率的图分开。
  5. 对整个看板的大部分图表做了展示效果的调整与优化,加强实用性与兼容性。
  6. 修复了同时展示多个服务器部分图表报错的问题。
2019/7/1
  1. 增加了磁盘分区的使用率曲线图。
  2. 优化了数据展示效果。
  3. 使用Grafana 6.2.5 测试使用正常。
2019/5/20
  1. 增加了服务器列表多选支持,曲线图可以展示多台服务器的数据。
  2. 优化了变量的展示效果。
  3. 优化了部分监控指标的描述说明,点击各图表左上角的“i”即可查看。
2019/1/9
  1. 修复了一个展示内存使用量不准确的bug。
  2. 增加了更新node_exporter和仪表板的外链。
  3. Grafana v5.4.2 + node_exporter 0.16 、node_exporter 0.17 、node_exporter 0.18 测试使用正常。
11/16
  1. 增加了变量的说明。
  2. 优化了新安装看板后的展示速度。
11/15
  1. 增加各环境对服务器分组。
  2. 增加饼图,磁盘总空间。
  3. 增加当前打开文件描述符。
  4. 增加部分监控指标的描述。
  5. 优化部分指标的显示结果。
11/13
  1. 增加磁盘每秒的I/O操作耗费时间占比图形。

Dashboard revisions

RevisionDecscriptionCreated

Reviews

Login or Sign up to write a review

Reviews from the community

Get this dashboard

Data source:

Dependencies:

Import the dashboard template:

or

Download JSON

Docs: Importing dashboards

Downloads: 5,627