Skip to content

GaussDB 告警阈值建议

告警阈值设置原则

阈值设置考虑因素

  • 业务重要性
  • 系统负载特性
  • 历史性能基线
  • 资源配置情况
  • 业务峰值规律

阈值分级建议

  • 紧急告警:需要立即处理的严重问题
  • 重要告警:需要尽快处理的重要问题
  • 一般告警:需要关注的一般问题
  • 提示告警:需要注意的提示信息

告警频率控制

  • 避免告警风暴
  • 设置合理的告警触发间隔
  • 配置告警抑制规则
  • 对相关告警进行聚合

CPU 指标告警阈值

CPU 使用率

告警级别阈值建议监控周期触发条件
提示70%5分钟连续3次超过阈值
一般80%5分钟连续3次超过阈值
重要90%5分钟连续2次超过阈值
紧急95%1分钟连续2次超过阈值

CPU 负载

告警级别阈值建议监控周期触发条件
提示CPU核心数 × 1.55分钟连续3次超过阈值
一般CPU核心数 × 2.05分钟连续3次超过阈值
重要CPU核心数 × 2.55分钟连续2次超过阈值
紧急CPU核心数 × 3.01分钟连续2次超过阈值

内存指标告警阈值

内存使用率

告警级别阈值建议监控周期触发条件
提示75%5分钟连续3次超过阈值
一般85%5分钟连续3次超过阈值
重要90%5分钟连续2次超过阈值
紧急95%1分钟连续2次超过阈值

共享内存使用率

告警级别阈值建议监控周期触发条件
提示80%5分钟连续3次超过阈值
一般85%5分钟连续3次超过阈值
重要90%5分钟连续2次超过阈值
紧急95%1分钟连续2次超过阈值

交换分区使用率

告警级别阈值建议监控周期触发条件
提示10%5分钟连续3次超过阈值
一般20%5分钟连续3次超过阈值
重要30%5分钟连续2次超过阈值
紧急50%1分钟连续2次超过阈值

磁盘指标告警阈值

磁盘空间使用率

告警级别阈值建议监控周期触发条件
提示70%30分钟连续2次超过阈值
一般80%30分钟连续2次超过阈值
重要90%15分钟连续2次超过阈值
紧急95%5分钟连续2次超过阈值

磁盘 I/O 使用率

告警级别阈值建议监控周期触发条件
提示70%5分钟连续3次超过阈值
一般80%5分钟连续3次超过阈值
重要90%5分钟连续2次超过阈值
紧急95%1分钟连续2次超过阈值

磁盘读写延迟

告警级别读延迟阈值写延迟阈值监控周期触发条件
提示10ms20ms5分钟连续3次超过阈值
一般20ms50ms5分钟连续3次超过阈值
重要50ms100ms5分钟连续2次超过阈值
紧急100ms200ms1分钟连续2次超过阈值

数据库连接告警阈值

连接数使用率

告警级别阈值建议监控周期触发条件
提示70%5分钟连续3次超过阈值
一般80%5分钟连续3次超过阈值
重要90%5分钟连续2次超过阈值
紧急95%1分钟连续2次超过阈值

连接失败率

告警级别阈值建议监控周期触发条件
提示1%5分钟连续3次超过阈值
一般3%5分钟连续3次超过阈值
重要5%5分钟连续2次超过阈值
紧急10%1分钟连续2次超过阈值

数据库性能告警阈值

事务提交延迟

告警级别阈值建议监控周期触发条件
提示500ms5分钟连续3次超过阈值
一般1000ms5分钟连续3次超过阈值
重要2000ms5分钟连续2次超过阈值
紧急5000ms1分钟连续2次超过阈值

慢查询率

告警级别阈值建议监控周期触发条件
提示0.1%5分钟连续3次超过阈值
一般0.5%5分钟连续3次超过阈值
重要1%5分钟连续2次超过阈值
紧急5%1分钟连续2次超过阈值

缓存命中率

告警级别阈值建议监控周期触发条件
提示95%5分钟连续3次低于阈值
一般90%5分钟连续3次低于阈值
重要85%5分钟连续2次低于阈值
紧急80%1分钟连续2次低于阈值

复制相关告警阈值

复制延迟

告警级别阈值建议监控周期触发条件
提示10MB5分钟连续3次超过阈值
一般50MB5分钟连续3次超过阈值
重要100MB5分钟连续2次超过阈值
紧急500MB1分钟连续2次超过阈值

复制延迟时间

告警级别阈值建议监控周期触发条件
提示30秒5分钟连续3次超过阈值
一般1分钟5分钟连续3次超过阈值
重要5分钟5分钟连续2次超过阈值
紧急10分钟1分钟连续2次超过阈值

复制状态异常

告警级别阈值建议监控周期触发条件
重要-1分钟复制连接断开
紧急-1分钟同步复制备节点故障

日志相关告警阈值

错误日志数量

告警级别阈值建议监控周期触发条件
提示10条/分钟5分钟连续3次超过阈值
一般50条/分钟5分钟连续3次超过阈值
重要100条/分钟5分钟连续2次超过阈值
紧急500条/分钟1分钟连续2次超过阈值

慢查询日志数量

告警级别阈值建议监控周期触发条件
提示5条/分钟5分钟连续3次超过阈值
一般20条/分钟5分钟连续3次超过阈值
重要50条/分钟5分钟连续2次超过阈值
紧急100条/分钟1分钟连续2次超过阈值

存储过程与函数告警阈值

存储过程执行时间

告警级别阈值建议监控周期触发条件
提示1000ms5分钟连续3次超过阈值
一般3000ms5分钟连续3次超过阈值
重要5000ms5分钟连续2次超过阈值
紧急10000ms1分钟连续2次超过阈值

告警阈值调整建议

定期评估与调整

  • 每季度评估一次告警阈值
  • 根据业务变化调整阈值
  • 根据系统扩容调整阈值
  • 根据性能优化结果调整阈值

基于基线的动态阈值

  • 建立正常运行时的性能基线
  • 基于基线设置动态阈值
  • 考虑业务周期性变化
  • 支持自动调整阈值

告警效果评估

  • 统计告警准确率
  • 统计告警处理时间
  • 分析误报和漏报情况
  • 优化告警规则和阈值

告警阈值管理最佳实践

分级管理

  • 不同级别告警采用不同的阈值和通知方式
  • 紧急告警采用多渠道通知
  • 一般告警采用定期汇总通知

测试与验证

  • 新配置的告警阈值需要测试
  • 模拟故障场景验证告警效果
  • 确保告警能够及时触发
  • 避免过多误报

文档化管理

  • 记录告警阈值的设置依据
  • 定期更新告警阈值文档
  • 建立告警阈值变更流程
  • 确保团队成员了解告警阈值

常见问题(FAQ)

Q1: 如何确定合适的告警阈值?

A1: 确定合适的告警阈值需要考虑:

  1. 系统的历史性能数据
  2. 业务的重要性和容忍度
  3. 资源配置情况
  4. 业务峰值和低谷规律
  5. 类似系统的最佳实践

Q2: 如何避免告警风暴?

A2: 避免告警风暴的方法:

  1. 设置合理的告警触发条件和周期
  2. 配置告警抑制规则
  3. 对相关告警进行聚合
  4. 设置告警静默期
  5. 优化告警阈值,减少误报

Q3: 如何调整告警阈值?

A3: 调整告警阈值的步骤:

  1. 收集系统性能数据,建立基线
  2. 分析当前告警情况,识别误报和漏报
  3. 根据分析结果调整告警阈值
  4. 测试调整后的告警效果
  5. 记录调整过程和依据

Q4: 不同业务场景下的告警阈值有什么不同?

A4: 不同业务场景下的告警阈值差异:

  1. 金融核心系统:阈值更严格,容忍度更低
  2. 互联网应用:阈值相对宽松,更注重性能
  3. 批处理系统:关注峰值处理能力
  4. 实时交易系统:关注低延迟和稳定性

Q5: 如何监控告警阈值的有效性?

A5: 监控告警阈值有效性的方法:

  1. 统计告警准确率和误报率
  2. 分析告警处理时间和效果
  3. 定期进行告警阈值评估
  4. 收集运维人员反馈
  5. 根据业务变化调整阈值