Oracle 告警阈值设置

告警阈值基础

什么是告警阈值

告警阈值是在Oracle数据库监控系统中设置的临界值，当监控指标超过或低于该临界值时，系统会触发告警通知。告警阈值的设置是数据库监控体系中的重要组成部分，用于及时发现和解决潜在的数据库问题。

为什么需要设置告警阈值

设置告警阈值的主要原因包括：

及时发现问题：当数据库出现异常时，及时触发告警，避免问题扩大
预防性维护：通过设置合理的阈值，提前发现潜在的性能瓶颈和资源不足问题
减少人工监控：自动化监控和告警，减少人工监控的工作量
提高系统可用性：及时响应和处理问题，提高数据库系统的可用性
合规性要求：满足相关法规和行业标准对系统监控的要求

常见告警指标

性能相关指标

CPU使用率：数据库服务器的CPU使用率
内存使用率：数据库服务器的内存使用率
I/O等待时间：I/O操作的等待时间
会话数量：当前活跃的数据库会话数量
SQL执行时间：SQL语句的执行时间
响应时间：数据库的响应时间
事务处理速率：单位时间内处理的事务数量
锁等待时间：锁等待的时间

资源相关指标

表空间使用率：表空间的使用百分比
数据文件大小：数据文件的大小和增长率
临时表空间使用率：临时表空间的使用百分比
回滚段使用率：回滚段的使用百分比
日志文件大小：日志文件的大小和使用情况
归档日志生成速率：单位时间内生成的归档日志数量
共享池使用率：共享池的使用百分比
缓冲区缓存命中率：缓冲区缓存的命中率

安全相关指标

失败登录尝试次数：单位时间内失败的登录尝试次数
权限变更：数据库权限的变更情况
敏感对象访问：对敏感对象的访问情况
异常SQL执行：异常的SQL执行情况
数据修改操作：大规模的数据修改操作

可用性相关指标

数据库状态：数据库的运行状态
实例可用性：数据库实例的可用性
监听程序状态：监听程序的运行状态
数据 guard 状态：数据 guard 的同步状态
RAC 节点状态：RAC集群节点的状态
备份状态：备份操作的状态和结果

告警阈值设置方法

使用 Oracle Enterprise Manager

Oracle Enterprise Manager (OEM) 提供了图形化界面来设置告警阈值：

登录 OEM 控制台
导航到目标数据库
点击"监控"选项卡
选择"告警设置"
选择要设置阈值的指标
点击"编辑阈值"
设置警告阈值和严重阈值
点击"确定"保存设置

使用 DBA_THRESHOLDS 视图

通过查询 DBA_THRESHOLDS 视图查看当前的告警阈值设置：

sql

SELECT metric_id, metric_name, warning_operator, warning_value, critical_operator, critical_value 
FROM DBA_THRESHOLDS;

使用 DBMS_SERVER_ALERT 包

使用 DBMS_SERVER_ALERT 包设置告警阈值：

sql

-- 设置表空间使用率阈值
EXEC DBMS_SERVER_ALERT.SET_THRESHOLD(
   metrics_id => DBMS_SERVER_ALERT.TABLESPACE_PCT_FULL,
   warning_operator => DBMS_SERVER_ALERT.OPERATOR_GREATER,
   warning_value => '85',
   critical_operator => DBMS_SERVER_ALERT.OPERATOR_GREATER,
   critical_value => '95',
   observation_period => 1,
   consecutive_occurrences => 1,
   instance_name => NULL,
   object_type => DBMS_SERVER_ALERT.OBJECT_TYPE_TABLESPACE,
   object_name => 'USERS'
);

使用 AWR 基线

基于 AWR 基线设置告警阈值：

创建 AWR 基线
基于基线数据设置告警阈值
使用基线偏差检测异常情况

sql

-- 创建 AWR 基线
EXEC DBMS_WORKLOAD_REPOSITORY.CREATE_BASELINE(
   start_snap_id => 100,
   end_snap_id => 200,
   baseline_name => 'NORMAL_OPERATION',
   description => '正常操作期间的基线'
);

-- 基于基线设置阈值
EXEC DBMS_SERVER_ALERT.SET_THRESHOLD(
   metrics_id => DBMS_SERVER_ALERT.CPU_USAGE_PERCENT,
   warning_operator => DBMS_SERVER_ALERT.OPERATOR_GREATER,
   warning_value => '80',
   critical_operator => DBMS_SERVER_ALERT.OPERATOR_GREATER,
   critical_value => '90',
   observation_period => 5,
   consecutive_occurrences => 1,
   instance_name => NULL,
   object_type => DBMS_SERVER_ALERT.OBJECT_TYPE_SYSTEM,
   object_name => NULL
);

告警阈值最佳实践

基于历史数据设置阈值

分析历史性能数据：分析数据库的历史性能数据，了解正常运行时的指标范围
建立基准值：基于历史数据建立性能基准值，作为设置阈值的参考
考虑业务周期：考虑业务的高峰期和低谷期，设置不同的阈值
使用百分位数：使用统计百分位数（如95%百分位数）作为阈值设置的参考

分级设置阈值

设置多个级别：设置警告和严重两个级别的阈值，实现分级告警
合理的阈值差距：警告阈值和严重阈值之间应保持合理的差距，避免频繁告警
考虑指标的波动性：对于波动性较大的指标，设置更宽松的阈值
结合多个指标：结合多个相关指标设置阈值，提高告警的准确性

动态调整阈值

定期审查和调整：定期审查和调整告警阈值，适应数据库的变化
基于季节调整：根据业务的季节性变化调整阈值
基于系统变更调整：在系统变更（如硬件升级、应用变更）后调整阈值
使用自适应阈值：对于支持自适应阈值的系统，启用自适应阈值功能

告警风暴避免

设置合理的观察周期：设置合理的观察周期，避免短暂波动触发告警
设置连续发生次数：设置连续发生次数，避免偶发事件触发告警
告警抑制：实现告警抑制机制，避免相关告警同时触发
告警聚合：实现告警聚合，将相关告警合并为一个告警

告警通知优化

选择合适的通知方式：根据告警的严重程度选择合适的通知方式
设置通知频率：设置合理的通知频率，避免通知过多
通知升级机制：实现通知升级机制，确保严重告警得到及时处理
通知内容优化：优化通知内容，包含必要的信息，便于快速响应

告警级别管理

告警级别定义

Oracle 数据库的告警级别通常包括：

信息：提供一般信息，不需要立即处理
警告：表示潜在问题，需要关注但不需要立即处理
严重：表示严重问题，需要立即处理
紧急：表示紧急问题，需要立即采取行动

告警级别设置

设置告警级别的方法：

基于影响范围：根据问题的影响范围设置告警级别
基于紧急程度：根据问题的紧急程度设置告警级别
基于业务重要性：根据业务的重要性设置告警级别
基于恢复时间：根据问题的恢复时间要求设置告警级别

告警响应流程

建立告警响应流程：

告警接收：接收和记录告警信息
告警分类：根据告警级别和类型对告警进行分类
告警评估：评估告警的严重性和影响范围
告警响应：根据告警级别和类型采取相应的响应措施
告警解决：解决告警对应的问题
告警关闭：确认问题解决后关闭告警
告警分析：分析告警原因，采取预防措施

告警通知配置

通知方法

Oracle 数据库支持多种告警通知方法：

电子邮件：通过电子邮件发送告警通知
短信：通过短信发送告警通知
SNMP 陷阱：通过 SNMP 陷阱发送告警通知
系统日志：将告警记录到系统日志
企业集成：与企业监控系统集成

通知配置

配置告警通知的方法：

使用 Oracle Enterprise Manager

登录 OEM 控制台
导航到"设置" > "通知方法"
点击"添加"添加新的通知方法
选择通知类型（电子邮件、短信等）
配置通知方法的详细信息
点击"确定"保存设置

使用 DBMS_AQADM 包

配置电子邮件通知：

sql

-- 创建邮件通知队列
EXEC DBMS_AQADM.CREATE_QUEUE_TABLE(
   queue_table => 'SYSMAN.MGMT_NOTIFY_QTABLE',
   queue_payload_type => 'SYSMAN.MGMT_NOTIFICATION_MSG',
   storage_clause => 'TABLESPACE SYSAUX'
);

EXEC DBMS_AQADM.CREATE_QUEUE(
   queue_name => 'SYSMAN.MGMT_NOTIFY_QUEUE',
   queue_table => 'SYSMAN.MGMT_NOTIFY_QTABLE'
);

EXEC DBMS_AQADM.START_QUEUE(
   queue_name => 'SYSMAN.MGMT_NOTIFY_QUEUE'
);

通知规则

设置通知规则：

基于告警级别：根据告警级别设置通知规则
基于告警类型：根据告警类型设置通知规则
基于时间：根据时间设置通知规则（如工作时间和非工作时间）
基于联系人：根据联系人的职责设置通知规则

告警监控工具

Oracle Enterprise Manager

Oracle Enterprise Manager 是 Oracle 官方提供的综合监控和管理工具：

实时监控：实时监控数据库的性能和状态
告警管理：管理和配置告警阈值和通知
性能分析：分析数据库的性能数据
自动化任务：执行自动化的维护任务
集成管理：集成管理多个数据库实例

Oracle Cloud Control

Oracle Cloud Control 是 Oracle Enterprise Manager 的云版本：

云集成：与 Oracle 云服务集成
混合环境管理：管理混合云环境中的数据库
高级分析：提供更高级的性能分析功能
预测性分析：使用机器学习进行预测性分析

第三方监控工具

除了 Oracle 官方工具外，还有一些第三方监控工具：

Zabbix：开源的企业级监控解决方案
Nagios：开源的网络监控工具
Prometheus：开源的监控和告警系统
Datadog：云原生的监控和分析平台
New Relic：应用性能监控和业务分析平台
SolarWinds Database Performance Monitor：数据库性能监控工具

自定义监控脚本

编写自定义监控脚本：

Shell 脚本：使用 Shell 脚本监控数据库状态
Python 脚本：使用 Python 脚本进行更复杂的监控和分析
Perl 脚本：使用 Perl 脚本监控数据库性能
SQL 脚本：使用 SQL 脚本查询数据库状态和性能数据

告警阈值调优

调优流程

告警阈值调优的流程：

收集数据：收集数据库的性能数据和告警历史
分析告警：分析告警的频率、准确性和有效性
识别问题：识别告警阈值设置中的问题，如误报、漏报等
调整阈值：根据分析结果调整告警阈值
验证效果：验证调整后的阈值效果
持续改进：持续监控和调整告警阈值

常见调优问题

告警阈值调优中常见的问题：

误报过多：告警阈值设置过于敏感，导致误报过多
漏报：告警阈值设置过于宽松，导致漏报
告警风暴：多个相关告警同时触发，形成告警风暴
告警疲劳：告警过多，导致运维人员对告警产生疲劳
阈值不合理：告警阈值设置不合理，不符合实际情况

调优策略

告警阈值调优的策略：

基于实际情况调整：根据数据库的实际运行情况调整阈值
参考行业标准：参考行业标准和最佳实践设置阈值
使用动态阈值：对于波动较大的指标，使用动态阈值
结合多个指标：结合多个相关指标设置阈值，提高准确性
定期审查：定期审查告警阈值的有效性，及时调整

实际应用场景

生产环境告警设置

生产环境的告警设置应更加严格：

性能指标：设置更严格的性能指标阈值，确保系统性能良好
资源指标：设置更保守的资源使用阈值，避免资源耗尽
安全指标：启用所有安全相关的告警，及时发现安全问题
可用性指标：设置严格的可用性指标阈值，确保系统高可用
通知方式：对于严重告警，使用多种通知方式确保及时收到

测试环境告警设置

测试环境的告警设置可以相对宽松：

性能指标：设置相对宽松的性能指标阈值
资源指标：允许更高的资源使用率
安全指标：可以适当减少安全相关的告警
可用性指标：对可用性的要求相对较低
通知方式：可以只使用电子邮件通知

开发环境告警设置

开发环境的告警设置可以更加宽松：

性能指标：可以不设置性能指标阈值
资源指标：允许资源的充分使用
安全指标：可以禁用大部分安全相关的告警
可用性指标：对可用性的要求最低
通知方式：可以只记录告警，不发送通知

数据仓库环境告警设置

数据仓库环境的告警设置应考虑其特点：

批处理作业：监控批处理作业的执行状态和性能
存储空间：设置更严格的存储空间使用阈值
I/O 性能：重点监控 I/O 性能指标
备份状态：监控备份操作的状态和结果
查询性能：监控复杂查询的性能

常见问题（FAQ）

Q1: 如何确定合理的告警阈值？

A1: 确定合理的告警阈值的方法包括：

分析历史性能数据，了解正常运行时的指标范围
参考行业标准和最佳实践
考虑业务的需求和重要性
进行测试和调整，找到合适的阈值
定期审查和更新阈值，适应系统的变化

Q2: 如何避免告警风暴？

A2: 避免告警风暴的方法包括：

设置合理的观察周期和连续发生次数
实现告警抑制机制，避免相关告警同时触发
实现告警聚合，将相关告警合并为一个告警
基于告警级别设置不同的通知方式和频率
对告警进行分类和优先级排序

Q3: 如何处理误报和漏报问题？

A3: 处理误报和漏报问题的方法包括：

分析误报和漏报的原因，调整告警阈值
使用多种指标综合判断，提高告警的准确性
结合上下文信息，避免孤立地判断告警
实现智能告警分析，减少误报
定期审查告警历史，发现和解决问题

Q4: 如何设置不同环境的告警阈值？

A4: 设置不同环境告警阈值的方法包括：

生产环境：设置严格的阈值，确保系统稳定运行
测试环境：设置相对宽松的阈值，允许更多的测试活动
开发环境：设置更宽松的阈值，甚至可以禁用一些告警
数据仓库环境：根据批处理作业的特点设置阈值
灾备环境：重点监控复制状态和同步延迟

Q5: 如何监控告警的有效性？

A5: 监控告警有效性的方法包括：

记录告警的处理情况，包括响应时间和解决时间
分析告警的准确性，计算误报率和漏报率
评估告警对问题解决的帮助程度
收集运维人员对告警的反馈
定期审查告警历史，发现和解决问题

Q6: 如何集成告警系统与企业监控平台？

A6: 集成告警系统与企业监控平台的方法包括：

使用 SNMP 协议将告警发送到企业监控平台
使用 API 集成告警系统与企业监控平台
使用消息队列传递告警信息
配置统一的通知规则和联系人
实现告警的集中管理和分析

Q7: 如何设置自适应告警阈值？

A7: 设置自适应告警阈值的方法包括：

使用 Oracle 的自适应阈值功能
基于历史数据和趋势分析自动调整阈值
使用机器学习算法预测正常的指标范围
根据时间、负载等因素动态调整阈值
实现反馈机制，根据告警的准确性调整阈值

Q8: 如何处理大量告警？

A8: 处理大量告警的方法包括：

实现告警优先级排序，优先处理重要告警
建立告警响应团队，分工处理不同类型的告警
自动化处理常见告警，减少人工干预
定期分析告警模式，找出根本原因
优化系统和应用，减少告警的产生

Q9: 如何设置表空间使用率的告警阈值？

A9: 设置表空间使用率告警阈值的方法：

对于小表空间（< 10GB），警告阈值设置为 80%，严重阈值设置为 90%
对于中等表空间（10GB - 50GB），警告阈值设置为 85%，严重阈值设置为 95%
对于大表空间（> 50GB），警告阈值设置为 90%，严重阈值设置为 97%
考虑表空间的增长率，对于快速增长的表空间，设置更保守的阈值
定期监控表空间的使用情况，及时调整阈值

Q10: 如何设置 CPU 和内存使用率的告警阈值？

A10: 设置 CPU 和内存使用率告警阈值的方法：

CPU 使用率：警告阈值设置为 70-80%，严重阈值设置为 90-95%
内存使用率：警告阈值设置为 80-85%，严重阈值设置为 90-95%
考虑服务器的用途，如果是专用数据库服务器，可以设置更严格的阈值
考虑业务的高峰期，在高峰期可以设置更高的阈值
定期监控 CPU 和内存的使用情况，了解正常的使用模式
结合其他指标，如 I/O 等待时间和会话数量，综合判断系统状态

Oracle 告警阈值设置 ​

告警阈值基础 ​

什么是告警阈值 ​

为什么需要设置告警阈值 ​

常见告警指标 ​

性能相关指标 ​

资源相关指标 ​

安全相关指标 ​

可用性相关指标 ​

告警阈值设置方法 ​

使用 Oracle Enterprise Manager ​

使用 DBA_THRESHOLDS 视图 ​

使用 DBMS_SERVER_ALERT 包 ​

使用 AWR 基线 ​

告警阈值最佳实践 ​

基于历史数据设置阈值 ​

分级设置阈值 ​

动态调整阈值 ​

告警风暴避免 ​

告警通知优化 ​

告警级别管理 ​

告警级别定义 ​

告警级别设置 ​

告警响应流程 ​

告警通知配置 ​

通知方法 ​

通知配置 ​

使用 Oracle Enterprise Manager ​

使用 DBMS_AQADM 包 ​

通知规则 ​

告警监控工具 ​

Oracle Enterprise Manager ​

Oracle Cloud Control ​

第三方监控工具 ​

自定义监控脚本 ​

告警阈值调优 ​

调优流程 ​

常见调优问题 ​

调优策略 ​

实际应用场景 ​

生产环境告警设置 ​

测试环境告警设置 ​

开发环境告警设置 ​

数据仓库环境告警设置 ​

常见问题（FAQ） ​

Q1: 如何确定合理的告警阈值？ ​

Q2: 如何避免告警风暴？ ​

Q3: 如何处理误报和漏报问题？ ​

Q4: 如何设置不同环境的告警阈值？ ​

Q5: 如何监控告警的有效性？ ​

Q6: 如何集成告警系统与企业监控平台？ ​

Q7: 如何设置自适应告警阈值？ ​

Q8: 如何处理大量告警？ ​

Q9: 如何设置表空间使用率的告警阈值？ ​

Q10: 如何设置 CPU 和内存使用率的告警阈值？ ​

Oracle 告警阈值设置

告警阈值基础

什么是告警阈值

为什么需要设置告警阈值

常见告警指标

性能相关指标

资源相关指标

安全相关指标

可用性相关指标

告警阈值设置方法

使用 Oracle Enterprise Manager

使用 DBA_THRESHOLDS 视图

使用 DBMS_SERVER_ALERT 包

使用 AWR 基线

告警阈值最佳实践

基于历史数据设置阈值

分级设置阈值

动态调整阈值

告警风暴避免

告警通知优化

告警级别管理

告警级别定义

告警级别设置

告警响应流程

告警通知配置

通知方法

通知配置

使用 Oracle Enterprise Manager

使用 DBMS_AQADM 包

通知规则

告警监控工具

Oracle Enterprise Manager

Oracle Cloud Control

第三方监控工具

自定义监控脚本

告警阈值调优

调优流程

常见调优问题

调优策略

实际应用场景

生产环境告警设置

测试环境告警设置

开发环境告警设置

数据仓库环境告警设置

常见问题（FAQ）

Q1: 如何确定合理的告警阈值？

Q2: 如何避免告警风暴？

Q3: 如何处理误报和漏报问题？

Q4: 如何设置不同环境的告警阈值？

Q5: 如何监控告警的有效性？

Q6: 如何集成告警系统与企业监控平台？

Q7: 如何设置自适应告警阈值？

Q8: 如何处理大量告警？

Q9: 如何设置表空间使用率的告警阈值？

Q10: 如何设置 CPU 和内存使用率的告警阈值？