外观
GaussDB 正常范围
CPU 指标正常范围
CPU 使用率
正常范围
- 一般负载:10%-50%
- 高负载:50%-80%
- 警戒值:>80%
- 危险值:>90%
监控建议
- 监控 CPU 使用率的平均值和峰值
- 关注多核 CPU 的负载分布
- 分析 CPU 高使用率的原因,如慢查询、锁等待等
- 考虑使用 CPU 亲和性优化
CPU 负载
正常范围
- 负载平均值:0.5-1.0 倍 CPU 核心数
- 警戒值:1.0-2.0 倍 CPU 核心数
- 危险值:>2.0 倍 CPU 核心数
监控建议
- 监控 1 分钟、5 分钟、15 分钟负载平均值
- 比较负载平均值与 CPU 核心数
- 关注负载趋势变化
内存指标正常范围
内存使用率
正常范围
- 系统内存使用率:<80%
- 数据库内存使用率:根据配置合理分配
- 警戒值:>85%
- 危险值:>90%
监控建议
- 监控系统内存和数据库内存使用情况
- 分析内存泄漏问题
- 调整 shared_buffers、work_mem 等参数
缓冲区命中率
正常范围
- 共享缓冲区命中率:>99%
- 工作内存使用率:根据查询复杂度调整
- 警戒值:共享缓冲区命中率 <95%
监控建议
- 监控缓冲区命中率的变化趋势
- 调整 shared_buffers 参数优化命中率
- 分析缓冲区使用模式
I/O 指标正常范围
磁盘使用率
正常范围
- 磁盘使用率:<70%
- 警戒值:>80%
- 危险值:>90%
监控建议
- 监控磁盘使用率的增长趋势
- 预测磁盘空间使用情况
- 及时清理不必要的数据
- 考虑扩容或归档策略
I/O 吞吐量
正常范围
- 磁盘读取速率:根据存储设备性能而定
- 磁盘写入速率:根据存储设备性能而定
- 警戒值:持续接近存储设备的最大吞吐量
监控建议
- 监控 I/O 吞吐量的峰值和平均值
- 分析 I/O 密集型操作
- 考虑使用 SSD 提高 I/O 性能
I/O 等待时间
正常范围
- I/O 等待时间:<10ms
- 警戒值:10ms-50ms
- 危险值:>50ms
监控建议
- 监控 I/O 等待时间的变化
- 分析 I/O 瓶颈
- 优化存储配置,如 RAID 级别、文件系统等
数据库连接指标正常范围
连接数
正常范围
- 活跃连接数:<50% 配置的最大连接数
- 警戒值:>70% 配置的最大连接数
- 危险值:>90% 配置的最大连接数
监控建议
- 监控活跃连接数和空闲连接数
- 分析连接泄漏问题
- 调整 max_connections 参数
- 考虑使用连接池
连接等待时间
正常范围
- 连接等待时间:<100ms
- 警戒值:100ms-500ms
- 危险值:>500ms
监控建议
- 监控连接等待时间
- 分析连接队列长度
- 优化连接池配置
数据库性能指标正常范围
查询响应时间
正常范围
- 简单查询:<100ms
- 复杂查询:<1s
- 警戒值:1s-5s
- 危险值:>5s
监控建议
- 监控平均查询响应时间
- 识别慢查询并优化
- 分析查询执行计划
事务处理速率
正常范围
- 事务处理速率:根据业务需求而定
- 警戒值:持续低于正常业务需求
- 危险值:事务处理速率急剧下降
监控建议
- 监控事务提交和回滚速率
- 分析事务失败原因
- 优化事务设计和 SQL 语句
锁等待时间
正常范围
- 锁等待时间:<100ms
- 警戒值:100ms-500ms
- 危险值:>500ms
监控建议
- 监控锁等待时间和锁等待数量
- 分析锁竞争问题
- 优化查询语句和事务设计
复制指标正常范围
复制延迟
正常范围
- 同步复制:<100ms
- 异步复制:<1s
- 警戒值:1s-5s
- 危险值:>5s
监控建议
- 监控复制延迟的变化
- 分析复制延迟增加的原因
- 优化复制配置和网络环境
复制状态
正常范围
- 复制状态:正常
- 警戒值:复制暂停或延迟增加
- 危险值:复制中断
监控建议
- 监控复制状态和复制槽状态
- 及时处理复制错误
- 确保复制数据一致性
缓存和缓冲区指标正常范围
共享缓冲区使用率
正常范围
- 共享缓冲区使用率:50%-80%
- 警戒值:<30% 或 >90%
监控建议
- 监控共享缓冲区的使用率
- 调整 shared_buffers 参数
- 分析缓冲区使用模式
工作内存使用率
正常范围
- 工作内存使用率:根据查询复杂度调整
- 警戒值:频繁出现工作内存不足
监控建议
- 监控工作内存的使用情况
- 调整 work_mem 参数
- 优化复杂查询
常见问题(FAQ)
Q1: 如何确定指标的正常范围?
A1: 确定指标正常范围的方法:
- 参考官方文档提供的参考值
- 根据业务需求和系统配置调整
- 分析历史数据,确定基线值
- 考虑硬件性能和架构设计
- 参考同行业最佳实践
Q2: 指标超出正常范围怎么办?
A2: 指标超出正常范围的处理步骤:
- 确认指标异常的持续时间和影响范围
- 分析异常原因,如慢查询、系统负载、资源不足等
- 采取针对性措施,如优化查询、调整参数、增加资源等
- 监控处理效果
- 记录处理过程和结果
Q3: 如何设置合理的监控阈值?
A3: 设置监控阈值的建议:
- 根据指标的正常范围设置多级阈值
- 考虑业务高峰期的特殊情况
- 结合历史数据和趋势分析
- 设置合理的告警级别和通知方式
- 定期调整和优化阈值
Q4: 如何监控多个指标的关联性?
A4: 监控指标关联性的方法:
- 分析多个指标的变化趋势
- 寻找指标之间的相关性,如 CPU 使用率与查询响应时间
- 使用可视化工具展示指标关联性
- 建立指标之间的因果关系模型
- 进行根因分析
Q5: 如何优化指标性能?
A5: 优化指标性能的方法:
- 优化 SQL 语句和执行计划
- 调整数据库参数
- 优化系统资源配置
- 改进架构设计,如读写分离、分库分表等
- 考虑硬件升级
- 定期进行数据库维护,如 VACUUM、ANALYZE 等
