TDSQL 告警级别定义

告警级别分类

TDSQL 数据库的告警级别通常分为四级，从高到低依次为：

紧急告警（P0）

级别定义

最严重的告警级别，表示数据库系统已经或即将发生重大故障，对业务造成严重影响。

触发条件

数据库实例不可用
主从复制中断
数据丢失
服务完全不可用
严重的性能下降（如响应时间超过阈值10倍以上）
磁盘空间不足（剩余空间<5%）

影响范围

影响核心业务
造成重大经济损失或声誉影响
影响大量用户

响应要求

响应时间：5分钟内
处理时间：30分钟内恢复
必须立即通知相关人员
启动紧急故障处理流程

通知方式

电话告警
短信告警
即时通讯工具告警（如钉钉、微信）
邮件告警

严重告警（P1）

级别定义

表示数据库系统出现严重问题，可能对业务造成较大影响，需要立即处理。

触发条件

数据库实例性能严重下降
连接数接近上限（>90%）
慢查询数量激增
磁盘空间不足（剩余空间<10%）
主从复制延迟超过阈值（如>300秒）
重要服务出现异常

影响范围

影响重要业务功能
造成一定经济损失
影响部分用户

响应要求

响应时间：15分钟内
处理时间：2小时内恢复
通知相关负责人
启动故障处理流程

通知方式

短信告警
即时通讯工具告警
邮件告警

警告告警（P2）

级别定义

表示数据库系统出现异常情况，可能影响系统性能或稳定性，需要关注和处理。

触发条件

数据库实例性能下降
连接数较高（>70%）
慢查询数量增加
磁盘空间不足（剩余空间<20%）
主从复制延迟增加（如>60秒）
系统资源使用率较高（CPU、内存>80%）

影响范围

影响系统性能
可能导致后续更严重问题
影响少数用户或非核心功能

响应要求

响应时间：1小时内
处理时间：4小时内恢复
通知相关运维人员
进行监控和分析

通知方式

即时通讯工具告警
邮件告警

提示告警（P3）

级别定义

表示数据库系统出现轻微异常或需要关注的情况，一般不会立即影响业务。

触发条件

系统资源使用率中等（CPU、内存>60%）
少量慢查询
主从复制存在轻微延迟（如>30秒）
配置项不合理
建议进行的维护操作

影响范围

基本不影响业务
仅作为参考和提醒

响应要求

响应时间：8小时内
处理时间：24小时内处理
记录并定期分析
进行预防性维护

通知方式

邮件告警
系统日志记录

告警级别配置

配置方法

TDSQL Console 配置

登录 TDSQL Console
选择目标实例
进入监控告警页面
配置告警规则和级别
设置通知方式

命令行配置

sql

-- 设置告警级别
SET GLOBAL tdsql_alarm_level = 'P1';

-- 查看当前告警级别配置
SHOW GLOBAL VARIABLES LIKE 'tdsql_alarm_level%';

告警规则设置

基于阈值的告警

根据监控指标的阈值设置告警
支持静态阈值和动态阈值
可以设置告警持续时间

基于趋势的告警

根据指标的变化趋势设置告警
支持环比和同比分析
可以检测异常波动

基于模式的告警

根据特定的事件模式设置告警
支持组合条件告警
可以设置告警关联规则

告警级别处理流程

告警接收

告警系统检测到异常
根据规则确定告警级别
通过相应渠道发送告警通知
记录告警信息到数据库

告警处理

P0/P1 告警处理流程

立即响应，确认告警真实性
启动故障诊断流程
实施应急措施
验证故障恢复
进行根因分析
实施预防措施
更新文档和知识库

P2/P3 告警处理流程

关注告警，确认告警真实性
分析告警原因
实施修复措施
验证修复效果
记录处理过程
定期进行批量分析和优化

告警关闭

故障恢复后自动关闭
误报或无需处理的告警手动关闭
记录告警关闭原因
统计告警处理情况

告警级别管理

告警级别调整

调整原则

根据实际业务影响调整
定期评估告警级别的合理性
结合历史数据和经验调整
与业务部门沟通确认

调整流程

提出调整申请
评估调整影响
审批调整方案
实施调整
验证调整效果

告警抑制

抑制场景

已知故障正在处理中
计划内维护期间
批量相同告警
误报频繁的告警

抑制方法

设置告警抑制规则
临时禁用特定告警
使用告警分组和聚合

告警升级

升级条件

告警未在规定时间内处理
告警级别低估，实际影响更严重
告警持续时间过长

升级流程

检测到升级条件
自动升级告警级别
通知更高级别人员
调整处理优先级

告警级别最佳实践

设计最佳实践

合理划分级别

避免过多或过少的级别
每个级别定义清晰，边界明确
与企业现有告警体系保持一致

基于业务影响

告警级别应基于对业务的实际影响
与业务部门共同定义告警级别
考虑业务的重要性和敏感性

定期评估和优化

每季度评估一次告警级别设置
根据历史数据调整阈值
优化告警规则，减少误报

管理最佳实践

建立告警知识库

记录常见告警的处理方法
建立告警与解决方案的映射关系
定期更新和维护知识库

进行告警演练

定期进行告警响应演练
测试告警通知渠道的有效性
评估团队的响应能力

统计和分析告警数据

统计告警数量、级别分布
分析告警处理时间
识别常见问题和趋势
优化系统和流程

减少误报

优化告警规则
调整告警阈值
使用告警抑制和分组
定期清理无效告警

响应最佳实践

建立清晰的责任分工

明确各级别告警的处理责任人
建立告警响应团队
制定明确的沟通机制

快速响应

确保告警通知渠道畅通
建立24小时响应机制
对于P0/P1告警，必须立即响应

规范处理流程

建立标准化的告警处理流程
记录每一步处理过程
进行根因分析和预防措施

告警级别与监控指标的对应关系

性能指标

监控指标	P0	P1	P2	P3
响应时间	>30s	>10s	>5s	>2s
CPU使用率	>95%	>90%	>80%	>70%
内存使用率	>95%	>90%	>80%	>70%
磁盘使用率	>98%	>95%	>90%	>85%
连接数	>98%	>95%	>90%	>80%

可靠性指标

监控指标	P0	P1	P2	P3
主从复制延迟	-	>300s	>60s	>30s
复制状态	中断	异常	警告	正常
备份状态	失败	部分失败	警告	成功

安全指标

监控指标	P0	P1	P2	P3
安全漏洞	高危	中危	低危	信息
访问异常	大量	较多	少量	个别

常见问题（FAQ）

Q1: 如何确定告警的级别？

A1: 确定告警级别的方法：

评估告警对业务的影响范围
评估告警的严重程度
参考历史处理经验
与业务部门沟通确认
遵循预设的告警级别定义

Q2: 如何减少误报？

A2: 减少误报的方法：

优化告警阈值，避免过于敏感
设置合理的告警持续时间
使用告警抑制规则
定期清理无效告警
结合多个指标进行判断

Q3: 告警级别是否可以动态调整？

A3: 是的，告警级别可以动态调整：

根据实际业务影响调整
结合时间和业务场景调整
使用机器学习算法自动调整
定期评估和优化

Q4: 如何处理大量相同的告警？

A4: 处理大量相同告警的方法：

使用告警分组和聚合
设置告警抑制规则
查找根本原因，一次性解决
优化系统，避免同类问题再次发生

Q5: 如何建立有效的告警管理体系？

A5: 建立有效告警管理体系的步骤：

定义清晰的告警级别
设置合理的告警规则
建立完善的通知机制
制定标准化的处理流程
定期评估和优化
建立告警知识库
进行告警响应演练

Q6: 告警级别与SLA有什么关系？

A6: 告警级别与SLA的关系：

告警级别是保障SLA的重要手段
不同级别的告警对应不同的SLA要求
告警响应时间和处理时间应符合SLA规定
告警处理的效果直接影响SLA达标情况

TDSQL 告警级别定义 ​

告警级别分类 ​

紧急告警（P0） ​

级别定义 ​

触发条件 ​

影响范围 ​

响应要求 ​

通知方式 ​

严重告警（P1） ​

级别定义 ​

触发条件 ​

影响范围 ​

响应要求 ​

通知方式 ​

警告告警（P2） ​

级别定义 ​

触发条件 ​

影响范围 ​

响应要求 ​

通知方式 ​

提示告警（P3） ​

级别定义 ​

触发条件 ​

影响范围 ​

响应要求 ​

通知方式 ​

告警级别配置 ​

配置方法 ​

TDSQL Console 配置 ​

命令行配置 ​

告警规则设置 ​

基于阈值的告警 ​

基于趋势的告警 ​

基于模式的告警 ​

告警级别处理流程 ​

告警接收 ​

告警处理 ​

P0/P1 告警处理流程 ​

P2/P3 告警处理流程 ​

告警关闭 ​

告警级别管理 ​

告警级别调整 ​

调整原则 ​

调整流程 ​

告警抑制 ​

抑制场景 ​

抑制方法 ​

告警升级 ​

升级条件 ​

升级流程 ​

告警级别最佳实践 ​

设计最佳实践 ​

合理划分级别 ​

基于业务影响 ​

定期评估和优化 ​

管理最佳实践 ​

建立告警知识库 ​

进行告警演练 ​

统计和分析告警数据 ​

减少误报 ​

响应最佳实践 ​

建立清晰的责任分工 ​

快速响应 ​

规范处理流程 ​

告警级别与监控指标的对应关系 ​

性能指标 ​

可靠性指标 ​

安全指标 ​

常见问题（FAQ） ​

Q1: 如何确定告警的级别？ ​

Q2: 如何减少误报？ ​

Q3: 告警级别是否可以动态调整？ ​

Q4: 如何处理大量相同的告警？ ​

Q5: 如何建立有效的告警管理体系？ ​

Q6: 告警级别与SLA有什么关系？ ​

TDSQL 告警级别定义

告警级别分类

紧急告警（P0）

级别定义

触发条件

影响范围

响应要求

通知方式

严重告警（P1）

级别定义

触发条件

影响范围

响应要求

通知方式

警告告警（P2）

级别定义

触发条件

影响范围

响应要求

通知方式

提示告警（P3）

级别定义

触发条件

影响范围

响应要求

通知方式

告警级别配置

配置方法

TDSQL Console 配置

命令行配置

告警规则设置

基于阈值的告警

基于趋势的告警

基于模式的告警

告警级别处理流程

告警接收

告警处理

P0/P1 告警处理流程

P2/P3 告警处理流程

告警关闭

告警级别管理

告警级别调整

调整原则

调整流程

告警抑制

抑制场景

抑制方法

告警升级

升级条件

升级流程

告警级别最佳实践

设计最佳实践

合理划分级别

基于业务影响

定期评估和优化

管理最佳实践

建立告警知识库

进行告警演练

统计和分析告警数据

减少误报

响应最佳实践

建立清晰的责任分工

快速响应

规范处理流程

告警级别与监控指标的对应关系

性能指标

可靠性指标

安全指标

常见问题（FAQ）

Q1: 如何确定告警的级别？

Q2: 如何减少误报？

Q3: 告警级别是否可以动态调整？

Q4: 如何处理大量相同的告警？

Q5: 如何建立有效的告警管理体系？

Q6: 告警级别与SLA有什么关系？