GaussDB 正常范围

CPU 指标正常范围

CPU 使用率

正常范围

一般负载：10%-50%
高负载：50%-80%
警戒值：>80%
危险值：>90%

监控建议

监控 CPU 使用率的平均值和峰值
关注多核 CPU 的负载分布
分析 CPU 高使用率的原因，如慢查询、锁等待等
考虑使用 CPU 亲和性优化

CPU 负载

正常范围

负载平均值：0.5-1.0 倍 CPU 核心数
警戒值：1.0-2.0 倍 CPU 核心数
危险值：>2.0 倍 CPU 核心数

监控建议

监控 1 分钟、5 分钟、15 分钟负载平均值
比较负载平均值与 CPU 核心数
关注负载趋势变化

内存指标正常范围

内存使用率

正常范围

系统内存使用率：<80%
数据库内存使用率：根据配置合理分配
警戒值：>85%
危险值：>90%

监控建议

监控系统内存和数据库内存使用情况
分析内存泄漏问题
调整 shared_buffers、work_mem 等参数

缓冲区命中率

正常范围

共享缓冲区命中率：>99%
工作内存使用率：根据查询复杂度调整
警戒值：共享缓冲区命中率 <95%

监控建议

监控缓冲区命中率的变化趋势
调整 shared_buffers 参数优化命中率
分析缓冲区使用模式

I/O 指标正常范围

磁盘使用率

正常范围

磁盘使用率：<70%
警戒值：>80%
危险值：>90%

监控建议

监控磁盘使用率的增长趋势
预测磁盘空间使用情况
及时清理不必要的数据
考虑扩容或归档策略

I/O 吞吐量

正常范围

磁盘读取速率：根据存储设备性能而定
磁盘写入速率：根据存储设备性能而定
警戒值：持续接近存储设备的最大吞吐量

监控建议

监控 I/O 吞吐量的峰值和平均值
分析 I/O 密集型操作
考虑使用 SSD 提高 I/O 性能

I/O 等待时间

正常范围

I/O 等待时间：<10ms
警戒值：10ms-50ms
危险值：>50ms

监控建议

监控 I/O 等待时间的变化
分析 I/O 瓶颈
优化存储配置，如 RAID 级别、文件系统等

数据库连接指标正常范围

连接数

正常范围

活跃连接数：<50% 配置的最大连接数
警戒值：>70% 配置的最大连接数
危险值：>90% 配置的最大连接数

监控建议

监控活跃连接数和空闲连接数
分析连接泄漏问题
调整 max_connections 参数
考虑使用连接池

连接等待时间

正常范围

连接等待时间：<100ms
警戒值：100ms-500ms
危险值：>500ms

监控建议

监控连接等待时间
分析连接队列长度
优化连接池配置

数据库性能指标正常范围

查询响应时间

正常范围

简单查询：<100ms
复杂查询：<1s
警戒值：1s-5s
危险值：>5s

监控建议

监控平均查询响应时间
识别慢查询并优化
分析查询执行计划

事务处理速率

正常范围

事务处理速率：根据业务需求而定
警戒值：持续低于正常业务需求
危险值：事务处理速率急剧下降

监控建议

监控事务提交和回滚速率
分析事务失败原因
优化事务设计和 SQL 语句

锁等待时间

正常范围

锁等待时间：<100ms
警戒值：100ms-500ms
危险值：>500ms

监控建议

监控锁等待时间和锁等待数量
分析锁竞争问题
优化查询语句和事务设计

复制指标正常范围

复制延迟

正常范围

同步复制：<100ms
异步复制：<1s
警戒值：1s-5s
危险值：>5s

监控建议

监控复制延迟的变化
分析复制延迟增加的原因
优化复制配置和网络环境

复制状态

正常范围

复制状态：正常
警戒值：复制暂停或延迟增加
危险值：复制中断

监控建议

监控复制状态和复制槽状态
及时处理复制错误
确保复制数据一致性

缓存和缓冲区指标正常范围

共享缓冲区使用率

正常范围

共享缓冲区使用率：50%-80%
警戒值：<30% 或 >90%

监控建议

监控共享缓冲区的使用率
调整 shared_buffers 参数
分析缓冲区使用模式

工作内存使用率

正常范围

工作内存使用率：根据查询复杂度调整
警戒值：频繁出现工作内存不足

监控建议

监控工作内存的使用情况
调整 work_mem 参数
优化复杂查询

常见问题（FAQ）

Q1: 如何确定指标的正常范围？

A1: 确定指标正常范围的方法：

参考官方文档提供的参考值
根据业务需求和系统配置调整
分析历史数据，确定基线值
考虑硬件性能和架构设计
参考同行业最佳实践

Q2: 指标超出正常范围怎么办？

A2: 指标超出正常范围的处理步骤：

确认指标异常的持续时间和影响范围
分析异常原因，如慢查询、系统负载、资源不足等
采取针对性措施，如优化查询、调整参数、增加资源等
监控处理效果
记录处理过程和结果

Q3: 如何设置合理的监控阈值？

A3: 设置监控阈值的建议：

根据指标的正常范围设置多级阈值
考虑业务高峰期的特殊情况
结合历史数据和趋势分析
设置合理的告警级别和通知方式
定期调整和优化阈值

Q4: 如何监控多个指标的关联性？

A4: 监控指标关联性的方法：

分析多个指标的变化趋势
寻找指标之间的相关性，如 CPU 使用率与查询响应时间
使用可视化工具展示指标关联性
建立指标之间的因果关系模型
进行根因分析

Q5: 如何优化指标性能？

A5: 优化指标性能的方法：

优化 SQL 语句和执行计划
调整数据库参数
优化系统资源配置
改进架构设计，如读写分离、分库分表等
考虑硬件升级
定期进行数据库维护，如 VACUUM、ANALYZE 等