Skip to content

GaussDB 正常范围

CPU 指标正常范围

CPU 使用率

正常范围

  • 一般负载:10%-50%
  • 高负载:50%-80%
  • 警戒值:>80%
  • 危险值:>90%

监控建议

  • 监控 CPU 使用率的平均值和峰值
  • 关注多核 CPU 的负载分布
  • 分析 CPU 高使用率的原因,如慢查询、锁等待等
  • 考虑使用 CPU 亲和性优化

CPU 负载

正常范围

  • 负载平均值:0.5-1.0 倍 CPU 核心数
  • 警戒值:1.0-2.0 倍 CPU 核心数
  • 危险值:>2.0 倍 CPU 核心数

监控建议

  • 监控 1 分钟、5 分钟、15 分钟负载平均值
  • 比较负载平均值与 CPU 核心数
  • 关注负载趋势变化

内存指标正常范围

内存使用率

正常范围

  • 系统内存使用率:<80%
  • 数据库内存使用率:根据配置合理分配
  • 警戒值:>85%
  • 危险值:>90%

监控建议

  • 监控系统内存和数据库内存使用情况
  • 分析内存泄漏问题
  • 调整 shared_buffers、work_mem 等参数

缓冲区命中率

正常范围

  • 共享缓冲区命中率:>99%
  • 工作内存使用率:根据查询复杂度调整
  • 警戒值:共享缓冲区命中率 <95%

监控建议

  • 监控缓冲区命中率的变化趋势
  • 调整 shared_buffers 参数优化命中率
  • 分析缓冲区使用模式

I/O 指标正常范围

磁盘使用率

正常范围

  • 磁盘使用率:<70%
  • 警戒值:>80%
  • 危险值:>90%

监控建议

  • 监控磁盘使用率的增长趋势
  • 预测磁盘空间使用情况
  • 及时清理不必要的数据
  • 考虑扩容或归档策略

I/O 吞吐量

正常范围

  • 磁盘读取速率:根据存储设备性能而定
  • 磁盘写入速率:根据存储设备性能而定
  • 警戒值:持续接近存储设备的最大吞吐量

监控建议

  • 监控 I/O 吞吐量的峰值和平均值
  • 分析 I/O 密集型操作
  • 考虑使用 SSD 提高 I/O 性能

I/O 等待时间

正常范围

  • I/O 等待时间:<10ms
  • 警戒值:10ms-50ms
  • 危险值:>50ms

监控建议

  • 监控 I/O 等待时间的变化
  • 分析 I/O 瓶颈
  • 优化存储配置,如 RAID 级别、文件系统等

数据库连接指标正常范围

连接数

正常范围

  • 活跃连接数:<50% 配置的最大连接数
  • 警戒值:>70% 配置的最大连接数
  • 危险值:>90% 配置的最大连接数

监控建议

  • 监控活跃连接数和空闲连接数
  • 分析连接泄漏问题
  • 调整 max_connections 参数
  • 考虑使用连接池

连接等待时间

正常范围

  • 连接等待时间:<100ms
  • 警戒值:100ms-500ms
  • 危险值:>500ms

监控建议

  • 监控连接等待时间
  • 分析连接队列长度
  • 优化连接池配置

数据库性能指标正常范围

查询响应时间

正常范围

  • 简单查询:<100ms
  • 复杂查询:<1s
  • 警戒值:1s-5s
  • 危险值:>5s

监控建议

  • 监控平均查询响应时间
  • 识别慢查询并优化
  • 分析查询执行计划

事务处理速率

正常范围

  • 事务处理速率:根据业务需求而定
  • 警戒值:持续低于正常业务需求
  • 危险值:事务处理速率急剧下降

监控建议

  • 监控事务提交和回滚速率
  • 分析事务失败原因
  • 优化事务设计和 SQL 语句

锁等待时间

正常范围

  • 锁等待时间:<100ms
  • 警戒值:100ms-500ms
  • 危险值:>500ms

监控建议

  • 监控锁等待时间和锁等待数量
  • 分析锁竞争问题
  • 优化查询语句和事务设计

复制指标正常范围

复制延迟

正常范围

  • 同步复制:<100ms
  • 异步复制:<1s
  • 警戒值:1s-5s
  • 危险值:>5s

监控建议

  • 监控复制延迟的变化
  • 分析复制延迟增加的原因
  • 优化复制配置和网络环境

复制状态

正常范围

  • 复制状态:正常
  • 警戒值:复制暂停或延迟增加
  • 危险值:复制中断

监控建议

  • 监控复制状态和复制槽状态
  • 及时处理复制错误
  • 确保复制数据一致性

缓存和缓冲区指标正常范围

共享缓冲区使用率

正常范围

  • 共享缓冲区使用率:50%-80%
  • 警戒值:<30% 或 >90%

监控建议

  • 监控共享缓冲区的使用率
  • 调整 shared_buffers 参数
  • 分析缓冲区使用模式

工作内存使用率

正常范围

  • 工作内存使用率:根据查询复杂度调整
  • 警戒值:频繁出现工作内存不足

监控建议

  • 监控工作内存的使用情况
  • 调整 work_mem 参数
  • 优化复杂查询

常见问题(FAQ)

Q1: 如何确定指标的正常范围?

A1: 确定指标正常范围的方法:

  1. 参考官方文档提供的参考值
  2. 根据业务需求和系统配置调整
  3. 分析历史数据,确定基线值
  4. 考虑硬件性能和架构设计
  5. 参考同行业最佳实践

Q2: 指标超出正常范围怎么办?

A2: 指标超出正常范围的处理步骤:

  1. 确认指标异常的持续时间和影响范围
  2. 分析异常原因,如慢查询、系统负载、资源不足等
  3. 采取针对性措施,如优化查询、调整参数、增加资源等
  4. 监控处理效果
  5. 记录处理过程和结果

Q3: 如何设置合理的监控阈值?

A3: 设置监控阈值的建议:

  1. 根据指标的正常范围设置多级阈值
  2. 考虑业务高峰期的特殊情况
  3. 结合历史数据和趋势分析
  4. 设置合理的告警级别和通知方式
  5. 定期调整和优化阈值

Q4: 如何监控多个指标的关联性?

A4: 监控指标关联性的方法:

  1. 分析多个指标的变化趋势
  2. 寻找指标之间的相关性,如 CPU 使用率与查询响应时间
  3. 使用可视化工具展示指标关联性
  4. 建立指标之间的因果关系模型
  5. 进行根因分析

Q5: 如何优化指标性能?

A5: 优化指标性能的方法:

  1. 优化 SQL 语句和执行计划
  2. 调整数据库参数
  3. 优化系统资源配置
  4. 改进架构设计,如读写分离、分库分表等
  5. 考虑硬件升级
  6. 定期进行数据库维护,如 VACUUM、ANALYZE 等