GaussDB 监控指标含义与解读

监控指标是GaussDB数据库性能管理和故障诊断的重要依据。通过监控指标，可以实时了解数据库的运行状态，及时发现性能瓶颈和故障隐患。GaussDB提供了丰富的监控指标，包括系统资源指标、数据库性能指标、存储指标、连接指标等多个方面。

系统资源指标

CPU指标

指标名称	含义	正常范围	异常阈值	解读方法
CPU使用率	数据库进程占用的CPU百分比	< 70%	> 90%	持续高CPU使用率可能导致查询延迟增加，需要检查是否有长时间运行的查询或资源密集型操作
CPU用户态使用率	数据库进程在用户态消耗的CPU百分比	< 60%	> 80%	高用户态CPU使用率通常表示数据库正在执行大量计算密集型操作，如复杂查询、排序或连接
CPU系统态使用率	数据库进程在内核态消耗的CPU百分比	< 10%	> 20%	高系统态CPU使用率通常表示数据库正在执行大量I/O操作或系统调用
CPU空闲率	系统空闲CPU百分比	> 30%	< 10%	低CPU空闲率表示系统资源紧张，需要考虑扩容或优化查询

内存指标

指标名称	含义	正常范围	异常阈值	解读方法
内存使用率	数据库进程占用的内存百分比	< 80%	> 95%	高内存使用率可能导致系统开始使用swap空间，影响性能
shared_buffers使用率	共享缓冲区的使用率	< 80%	> 95%	共享缓冲区使用率过高表示需要增加shared_buffers参数或优化查询
work_mem使用率	工作内存的使用率	< 70%	> 90%	高work_mem使用率可能导致大量临时文件创建，影响查询性能
内存交换率	系统内存交换到磁盘的速率	< 100KB/s	> 1MB/s	高内存交换率表示系统内存不足，需要增加内存或优化内存使用

磁盘I/O指标

指标名称	含义	正常范围	异常阈值	解读方法
磁盘读取速率	数据库从磁盘读取数据的速率	取决于工作负载	持续> 80%磁盘带宽	高磁盘读取速率可能导致I/O瓶颈，需要考虑优化查询、增加缓存或升级存储
磁盘写入速率	数据库向磁盘写入数据的速率	取决于工作负载	持续> 80%磁盘带宽	高磁盘写入速率可能导致I/O瓶颈，需要考虑优化WAL配置、增加缓存或升级存储
磁盘IOPS	每秒I/O操作数	取决于存储类型	接近存储设备最大IOPS	高IOPS表示存储设备压力大，需要考虑优化查询或升级存储
磁盘平均延迟	I/O操作的平均延迟时间	< 10ms	> 50ms	高磁盘延迟表示存储设备性能不足，需要考虑升级存储或优化I/O模式

数据库性能指标

查询性能指标

指标名称	含义	正常范围	异常阈值	解读方法
每秒查询数（QPS）	每秒执行的SQL查询数量	取决于工作负载	-	QPS反映数据库的繁忙程度，可用于容量规划和性能对比
每秒事务数（TPS）	每秒完成的事务数量	取决于工作负载	-	TPS反映数据库的事务处理能力，是OLTP系统的重要指标
平均查询响应时间	SQL查询的平均执行时间	< 100ms	> 500ms	高平均查询响应时间表示查询性能差，需要优化查询或索引
慢查询数量	每秒执行的慢查询数量	0	> 5	慢查询数量增加表示存在性能问题，需要分析慢查询日志
临时文件创建数	每秒创建的临时文件数量	< 10	> 50	大量临时文件创建表示work_mem不足或查询需要优化

索引指标

指标名称	含义	正常范围	异常阈值	解读方法
索引命中率	索引被成功使用的比例	> 90%	< 80%	低索引命中率表示索引设计不合理或查询优化不佳
全表扫描次数	每秒执行的全表扫描次数	< 10	> 50	大量全表扫描表示需要创建合适的索引或优化查询
索引扫描次数	每秒执行的索引扫描次数	-	-	索引扫描次数与全表扫描次数的比例反映索引使用效率
索引大小	所有索引占用的存储空间	-	-	索引过大可能影响写入性能，需要定期清理或重建索引

锁指标

指标名称	含义	正常范围	异常阈值	解读方法
锁等待数量	每秒发生的锁等待数量	0	> 10	锁等待数量增加表示存在锁竞争，需要优化事务或查询
锁等待时间	锁等待的平均时间	< 10ms	> 100ms	长锁等待时间表示锁竞争严重，可能导致查询超时
死锁数量	每秒发生的死锁数量	0	> 0	死锁表示事务设计存在问题，需要分析并优化事务逻辑
活跃锁数量	当前持有的锁数量	< 1000	> 5000	大量活跃锁表示系统存在并发问题，需要优化事务或查询

存储指标

数据库大小指标

指标名称	含义	正常范围	异常阈值	解读方法
数据库总大小	数据库占用的总存储空间	-	-	数据库大小增长过快可能需要考虑数据归档或扩容
表大小	单个表占用的存储空间	-	-	大表可能影响查询性能，需要考虑分区或归档
索引大小	索引占用的存储空间	< 50%数据大小	> 100%数据大小	索引过大可能影响写入性能，需要优化索引设计
临时表空间大小	临时表空间占用的存储空间	< 10GB	> 50GB	临时表空间过大表示存在大量临时操作，需要优化查询或增加work_mem

WAL指标

指标名称	含义	正常范围	异常阈值	解读方法
WAL生成速率	每秒生成的WAL日志大小	取决于事务量	> 100MB/s	高WAL生成速率可能导致磁盘I/O压力大，需要优化事务或WAL配置
WAL归档延迟	WAL日志从生成到归档的延迟时间	< 10s	> 60s	长WAL归档延迟可能导致RPO增加，需要优化归档配置或存储性能
WAL缓冲区使用率	WAL缓冲区的使用率	< 50%	> 90%	高WAL缓冲区使用率表示需要增加wal_buffers参数
检查点频率	每秒执行的检查点数量	< 1	> 5	频繁检查点可能导致I/O峰值，需要优化checkpoint配置

连接指标

连接状态指标

指标名称	含义	正常范围	异常阈值	解读方法
活跃连接数	当前活跃的数据库连接数	< 70%max_connections	> 90%max_connections	高活跃连接数可能导致系统资源紧张，需要优化连接池或增加max_connections
空闲连接数	当前空闲的数据库连接数	< 50%总连接数	> 80%总连接数	大量空闲连接表示连接池配置不合理，需要优化连接超时设置
等待连接数	正在等待连接的请求数	0	> 10	等待连接数增加表示连接数不足，需要增加max_connections或优化连接池
连接建立速率	每秒建立的新连接数	< 100	> 500	高连接建立速率表示可能存在连接泄漏或连接池配置问题

会话指标

指标名称	含义	正常范围	异常阈值	解读方法
活跃会话数	当前活跃的数据库会话数	< 70%max_connections	> 90%max_connections	高活跃会话数表示系统负载高，需要优化查询或增加资源
空闲会话数	当前空闲的数据库会话数	< 50%总会话数	> 80%总会话数	大量空闲会话表示存在会话泄漏，需要优化会话超时设置
阻塞会话数	当前被阻塞的会话数	0	> 10	阻塞会话数增加表示存在锁竞争或长时间运行的事务
会话平均生命周期	会话的平均持续时间	< 10分钟	> 1小时	长会话生命周期表示可能存在会话泄漏

复制指标

主备复制指标

指标名称	含义	正常范围	异常阈值	解读方法
复制延迟	备节点与主节点的延迟时间	< 1秒	> 30秒	复制延迟增加可能导致数据不一致风险，需要优化网络或主节点性能
复制带宽	主备节点之间的复制带宽	-	> 90%网络带宽	高复制带宽可能导致网络瓶颈，需要优化网络或减少WAL生成
复制状态	复制连接的状态	streaming	failed	复制状态异常表示主备复制出现问题，需要检查备节点状态
备节点同步状态	备节点的同步状态	synchronized	potential	备节点不同步表示数据可能丢失，需要检查复制配置

并行复制指标

指标名称	含义	正常范围	异常阈值	解读方法
并行复制worker数量	当前活跃的并行复制worker数量	-	< 配置值	并行复制worker数量不足表示需要调整max_parallel_workers参数
并行复制进度	并行复制的进度百分比	100%	< 100%	并行复制进度不足表示复制过程中遇到问题
并行复制延迟	并行复制的延迟时间	< 1秒	> 30秒	并行复制延迟增加表示需要优化并行复制配置

监控指标解读方法

1. 建立基准值

收集正常运行状态下的指标值作为基准
定期更新基准值，适应业务变化
对比当前指标与基准值，识别异常变化

2. 关联分析

将多个相关指标结合分析，如CPU使用率与查询响应时间
分析指标之间的因果关系，如高WAL生成速率导致高磁盘I/O
综合系统资源指标和数据库性能指标进行分析

3. 趋势分析

监控指标的长期趋势，识别缓慢变化的问题
预测未来资源需求，进行容量规划
分析指标波动规律，识别周期性问题

4. 阈值告警

为关键指标设置合理的告警阈值
根据业务需求调整告警级别
配置多级告警，避免告警风暴
建立告警处理流程，确保及时响应

5. 根因分析

从现象指标追溯到根因指标
使用工具（如EXPLAIN）分析慢查询
检查数据库日志，寻找异常信息
结合系统监控，分析资源瓶颈

监控指标最佳实践

1. 选择关键指标

聚焦业务相关的关键指标
避免监控过多不重要的指标
根据不同角色选择相关指标（DBA、系统管理员、业务用户）

2. 合理设置阈值

根据业务需求和系统性能设置阈值
考虑指标的正常波动范围
采用动态阈值，适应业务变化
定期调整阈值，确保有效性

3. 建立监控仪表板

设计直观的监控仪表板
按功能模块组织指标
突出显示异常指标
支持钻取分析，从汇总到明细

4. 配置告警策略

分层告警：根据严重程度设置不同级别的告警
告警抑制：避免同一问题产生多条告警
告警升级：长时间未处理的告警自动升级
告警通知：多种通知方式（邮件、短信、即时消息）

5. 定期回顾优化

定期回顾监控指标和告警策略
分析告警历史，优化阈值和策略
调整监控范围，适应业务变化
持续改进监控体系

监控指标案例分析

案例1：高CPU使用率分析

现象：

CPU使用率持续超过90%
用户态CPU使用率高，系统态CPU使用率正常
平均查询响应时间增加

分析过程：

检查慢查询日志，发现多条长时间运行的复杂查询
分析查询执行计划，发现缺少必要的索引
检查索引命中率，发现索引命中率低

解决方案：

为慢查询创建合适的索引
优化复杂查询，拆分或重写SQL
考虑增加CPU资源或优化数据库参数

案例2：高磁盘I/O分析

现象：

磁盘写入速率持续超过80%磁盘带宽
WAL生成速率高
检查点频率增加

分析过程：

检查WAL配置，发现checkpoint_completion_target值过低
分析事务模式，发现大量小事务
检查WAL归档配置，发现归档延迟高

解决方案：

调整checkpoint_completion_target为0.9
考虑使用批量提交，减少事务数量
优化WAL归档配置，增加归档进程或优化存储

案例3：复制延迟增加分析

现象：

备节点复制延迟从毫秒级增加到分钟级
主节点WAL生成速率正常
网络带宽充足

分析过程：

检查备节点CPU使用率，发现CPU使用率高
检查备节点日志，发现大量索引重建操作
检查主节点，发现近期进行了大量数据更新

解决方案：

优化备节点性能，增加CPU资源
考虑在低峰期进行索引重建
调整备节点的max_parallel_workers参数

常见问题（FAQ）

Q1: GaussDB的关键监控指标有哪些？

A1: GaussDB的关键监控指标包括：

系统资源指标：CPU使用率、内存使用率、磁盘I/O
数据库性能指标：QPS、TPS、查询响应时间、慢查询数量
存储指标：数据库大小、WAL生成速率、检查点频率
连接指标：活跃连接数、空闲连接数、连接建立速率
复制指标：复制延迟、复制状态、备节点同步状态

Q2: 如何判断GaussDB的性能瓶颈？

A2: 判断GaussDB性能瓶颈的方法：

检查系统资源指标，识别CPU、内存或I/O瓶颈
分析查询性能指标，识别慢查询或查询优化问题
检查锁指标，识别锁竞争或死锁问题
分析复制指标，识别复制延迟问题
结合多种指标进行关联分析，确定根本原因

Q3: 如何设置GaussDB监控指标的告警阈值？

A3: 设置告警阈值的方法：

基于历史数据建立基准值
考虑业务需求和SLA要求
为不同指标设置不同级别的阈值（警告、严重、紧急）
考虑指标的正常波动范围
定期调整阈值，适应业务变化

Q4: 如何监控GaussDB的慢查询？

A4: 监控GaussDB慢查询的方法：

启用慢查询日志：ALTER SYSTEM SET log_min_duration_statement = 1000;
使用pg_stat_statements扩展监控查询性能
配置监控系统收集慢查询指标
设置慢查询数量告警
定期分析慢查询日志，优化查询和索引

Q5: 如何监控GaussDB的复制延迟？

A5: 监控GaussDB复制延迟的方法：

使用pg_stat_replication视图查看复制延迟：SELECT replay_lag FROM pg_stat_replication;
配置监控系统收集复制延迟指标
设置复制延迟告警阈值
定期检查备节点状态
优化主备节点之间的网络连接

Q6: 如何优化GaussDB的监控性能？

A6: 优化GaussDB监控性能的方法：

选择关键指标进行监控，避免监控过多指标
合理设置监控采样间隔，平衡实时性和性能影响
使用高效的监控工具，如Prometheus+Grafana
考虑使用异步监控，减少对数据库的影响
定期清理监控数据，避免存储压力

Q7: 如何分析GaussDB的内存使用情况？

A7: 分析GaussDB内存使用情况的方法：

检查shared_buffers、work_mem等参数配置
使用pg_settings视图查看内存相关参数
监控内存使用率和swap使用率
分析work_mem使用率，识别内存密集型操作
考虑调整内存参数，优化内存分配

Q8: 如何监控GaussDB的存储使用情况？

A8: 监控GaussDB存储使用情况的方法：

监控数据库总大小和增长趋势
检查表和索引大小，识别大表
监控WAL生成速率和归档情况
监控临时表空间使用情况
考虑数据归档或扩容，应对存储增长

GaussDB 监控指标含义与解读 ​

系统资源指标 ​

CPU指标 ​

内存指标 ​

磁盘I/O指标 ​

数据库性能指标 ​

查询性能指标 ​

索引指标 ​

锁指标 ​

存储指标 ​

数据库大小指标 ​

WAL指标 ​

连接指标 ​

连接状态指标 ​

会话指标 ​

复制指标 ​

主备复制指标 ​

并行复制指标 ​

监控指标解读方法 ​

1. 建立基准值 ​

2. 关联分析 ​

3. 趋势分析 ​

4. 阈值告警 ​

5. 根因分析 ​

监控指标最佳实践 ​

1. 选择关键指标 ​

2. 合理设置阈值 ​

3. 建立监控仪表板 ​

4. 配置告警策略 ​

5. 定期回顾优化 ​

监控指标案例分析 ​

案例1：高CPU使用率分析 ​

案例2：高磁盘I/O分析 ​

案例3：复制延迟增加分析 ​

常见问题（FAQ） ​

Q1: GaussDB的关键监控指标有哪些？ ​

Q2: 如何判断GaussDB的性能瓶颈？ ​

Q3: 如何设置GaussDB监控指标的告警阈值？ ​

Q4: 如何监控GaussDB的慢查询？ ​

Q5: 如何监控GaussDB的复制延迟？ ​

Q6: 如何优化GaussDB的监控性能？ ​

Q7: 如何分析GaussDB的内存使用情况？ ​

Q8: 如何监控GaussDB的存储使用情况？ ​

GaussDB 监控指标含义与解读

系统资源指标

CPU指标

内存指标

磁盘I/O指标

数据库性能指标

查询性能指标

索引指标

锁指标

存储指标

数据库大小指标

WAL指标

连接指标

连接状态指标

会话指标

复制指标

主备复制指标

并行复制指标

监控指标解读方法

1. 建立基准值

2. 关联分析

3. 趋势分析

4. 阈值告警

5. 根因分析

监控指标最佳实践

1. 选择关键指标

2. 合理设置阈值

3. 建立监控仪表板

4. 配置告警策略

5. 定期回顾优化

监控指标案例分析

案例1：高CPU使用率分析

案例2：高磁盘I/O分析

案例3：复制延迟增加分析

常见问题（FAQ）

Q1: GaussDB的关键监控指标有哪些？

Q2: 如何判断GaussDB的性能瓶颈？

Q3: 如何设置GaussDB监控指标的告警阈值？

Q4: 如何监控GaussDB的慢查询？

Q5: 如何监控GaussDB的复制延迟？

Q6: 如何优化GaussDB的监控性能？

Q7: 如何分析GaussDB的内存使用情况？

Q8: 如何监控GaussDB的存储使用情况？