外观
GaussDB 告警阈值建议
告警阈值设置原则
阈值设置考虑因素
- 业务重要性
- 系统负载特性
- 历史性能基线
- 资源配置情况
- 业务峰值规律
阈值分级建议
- 紧急告警:需要立即处理的严重问题
- 重要告警:需要尽快处理的重要问题
- 一般告警:需要关注的一般问题
- 提示告警:需要注意的提示信息
告警频率控制
- 避免告警风暴
- 设置合理的告警触发间隔
- 配置告警抑制规则
- 对相关告警进行聚合
CPU 指标告警阈值
CPU 使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 70% | 5分钟 | 连续3次超过阈值 |
| 一般 | 80% | 5分钟 | 连续3次超过阈值 |
| 重要 | 90% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 95% | 1分钟 | 连续2次超过阈值 |
CPU 负载
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | CPU核心数 × 1.5 | 5分钟 | 连续3次超过阈值 |
| 一般 | CPU核心数 × 2.0 | 5分钟 | 连续3次超过阈值 |
| 重要 | CPU核心数 × 2.5 | 5分钟 | 连续2次超过阈值 |
| 紧急 | CPU核心数 × 3.0 | 1分钟 | 连续2次超过阈值 |
内存指标告警阈值
内存使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 75% | 5分钟 | 连续3次超过阈值 |
| 一般 | 85% | 5分钟 | 连续3次超过阈值 |
| 重要 | 90% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 95% | 1分钟 | 连续2次超过阈值 |
共享内存使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 80% | 5分钟 | 连续3次超过阈值 |
| 一般 | 85% | 5分钟 | 连续3次超过阈值 |
| 重要 | 90% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 95% | 1分钟 | 连续2次超过阈值 |
交换分区使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 10% | 5分钟 | 连续3次超过阈值 |
| 一般 | 20% | 5分钟 | 连续3次超过阈值 |
| 重要 | 30% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 50% | 1分钟 | 连续2次超过阈值 |
磁盘指标告警阈值
磁盘空间使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 70% | 30分钟 | 连续2次超过阈值 |
| 一般 | 80% | 30分钟 | 连续2次超过阈值 |
| 重要 | 90% | 15分钟 | 连续2次超过阈值 |
| 紧急 | 95% | 5分钟 | 连续2次超过阈值 |
磁盘 I/O 使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 70% | 5分钟 | 连续3次超过阈值 |
| 一般 | 80% | 5分钟 | 连续3次超过阈值 |
| 重要 | 90% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 95% | 1分钟 | 连续2次超过阈值 |
磁盘读写延迟
| 告警级别 | 读延迟阈值 | 写延迟阈值 | 监控周期 | 触发条件 |
|---|---|---|---|---|
| 提示 | 10ms | 20ms | 5分钟 | 连续3次超过阈值 |
| 一般 | 20ms | 50ms | 5分钟 | 连续3次超过阈值 |
| 重要 | 50ms | 100ms | 5分钟 | 连续2次超过阈值 |
| 紧急 | 100ms | 200ms | 1分钟 | 连续2次超过阈值 |
数据库连接告警阈值
连接数使用率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 70% | 5分钟 | 连续3次超过阈值 |
| 一般 | 80% | 5分钟 | 连续3次超过阈值 |
| 重要 | 90% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 95% | 1分钟 | 连续2次超过阈值 |
连接失败率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 1% | 5分钟 | 连续3次超过阈值 |
| 一般 | 3% | 5分钟 | 连续3次超过阈值 |
| 重要 | 5% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 10% | 1分钟 | 连续2次超过阈值 |
数据库性能告警阈值
事务提交延迟
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 500ms | 5分钟 | 连续3次超过阈值 |
| 一般 | 1000ms | 5分钟 | 连续3次超过阈值 |
| 重要 | 2000ms | 5分钟 | 连续2次超过阈值 |
| 紧急 | 5000ms | 1分钟 | 连续2次超过阈值 |
慢查询率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 0.1% | 5分钟 | 连续3次超过阈值 |
| 一般 | 0.5% | 5分钟 | 连续3次超过阈值 |
| 重要 | 1% | 5分钟 | 连续2次超过阈值 |
| 紧急 | 5% | 1分钟 | 连续2次超过阈值 |
缓存命中率
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 95% | 5分钟 | 连续3次低于阈值 |
| 一般 | 90% | 5分钟 | 连续3次低于阈值 |
| 重要 | 85% | 5分钟 | 连续2次低于阈值 |
| 紧急 | 80% | 1分钟 | 连续2次低于阈值 |
复制相关告警阈值
复制延迟
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 10MB | 5分钟 | 连续3次超过阈值 |
| 一般 | 50MB | 5分钟 | 连续3次超过阈值 |
| 重要 | 100MB | 5分钟 | 连续2次超过阈值 |
| 紧急 | 500MB | 1分钟 | 连续2次超过阈值 |
复制延迟时间
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 30秒 | 5分钟 | 连续3次超过阈值 |
| 一般 | 1分钟 | 5分钟 | 连续3次超过阈值 |
| 重要 | 5分钟 | 5分钟 | 连续2次超过阈值 |
| 紧急 | 10分钟 | 1分钟 | 连续2次超过阈值 |
复制状态异常
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 重要 | - | 1分钟 | 复制连接断开 |
| 紧急 | - | 1分钟 | 同步复制备节点故障 |
日志相关告警阈值
错误日志数量
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 10条/分钟 | 5分钟 | 连续3次超过阈值 |
| 一般 | 50条/分钟 | 5分钟 | 连续3次超过阈值 |
| 重要 | 100条/分钟 | 5分钟 | 连续2次超过阈值 |
| 紧急 | 500条/分钟 | 1分钟 | 连续2次超过阈值 |
慢查询日志数量
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 5条/分钟 | 5分钟 | 连续3次超过阈值 |
| 一般 | 20条/分钟 | 5分钟 | 连续3次超过阈值 |
| 重要 | 50条/分钟 | 5分钟 | 连续2次超过阈值 |
| 紧急 | 100条/分钟 | 1分钟 | 连续2次超过阈值 |
存储过程与函数告警阈值
存储过程执行时间
| 告警级别 | 阈值建议 | 监控周期 | 触发条件 |
|---|---|---|---|
| 提示 | 1000ms | 5分钟 | 连续3次超过阈值 |
| 一般 | 3000ms | 5分钟 | 连续3次超过阈值 |
| 重要 | 5000ms | 5分钟 | 连续2次超过阈值 |
| 紧急 | 10000ms | 1分钟 | 连续2次超过阈值 |
告警阈值调整建议
定期评估与调整
- 每季度评估一次告警阈值
- 根据业务变化调整阈值
- 根据系统扩容调整阈值
- 根据性能优化结果调整阈值
基于基线的动态阈值
- 建立正常运行时的性能基线
- 基于基线设置动态阈值
- 考虑业务周期性变化
- 支持自动调整阈值
告警效果评估
- 统计告警准确率
- 统计告警处理时间
- 分析误报和漏报情况
- 优化告警规则和阈值
告警阈值管理最佳实践
分级管理
- 不同级别告警采用不同的阈值和通知方式
- 紧急告警采用多渠道通知
- 一般告警采用定期汇总通知
测试与验证
- 新配置的告警阈值需要测试
- 模拟故障场景验证告警效果
- 确保告警能够及时触发
- 避免过多误报
文档化管理
- 记录告警阈值的设置依据
- 定期更新告警阈值文档
- 建立告警阈值变更流程
- 确保团队成员了解告警阈值
常见问题(FAQ)
Q1: 如何确定合适的告警阈值?
A1: 确定合适的告警阈值需要考虑:
- 系统的历史性能数据
- 业务的重要性和容忍度
- 资源配置情况
- 业务峰值和低谷规律
- 类似系统的最佳实践
Q2: 如何避免告警风暴?
A2: 避免告警风暴的方法:
- 设置合理的告警触发条件和周期
- 配置告警抑制规则
- 对相关告警进行聚合
- 设置告警静默期
- 优化告警阈值,减少误报
Q3: 如何调整告警阈值?
A3: 调整告警阈值的步骤:
- 收集系统性能数据,建立基线
- 分析当前告警情况,识别误报和漏报
- 根据分析结果调整告警阈值
- 测试调整后的告警效果
- 记录调整过程和依据
Q4: 不同业务场景下的告警阈值有什么不同?
A4: 不同业务场景下的告警阈值差异:
- 金融核心系统:阈值更严格,容忍度更低
- 互联网应用:阈值相对宽松,更注重性能
- 批处理系统:关注峰值处理能力
- 实时交易系统:关注低延迟和稳定性
Q5: 如何监控告警阈值的有效性?
A5: 监控告警阈值有效性的方法:
- 统计告警准确率和误报率
- 分析告警处理时间和效果
- 定期进行告警阈值评估
- 收集运维人员反馈
- 根据业务变化调整阈值
