OceanBase 故障案例分析

案例一：OBServer 进程崩溃故障

故障现象

监控系统告警：OBServer 进程消失
节点状态变为 DOWN
业务连接异常，部分请求失败
副本同步延迟增加

故障原因分析

初步检查

登录故障节点，确认 OBServer 进程已停止
查看 OBServer 日志：/home/admin/oceanbase/log/observer.log
发现日志中存在大量 OOM（内存溢出）错误

深入分析

检查系统内存使用情况：
bash
```
free -h
top -c
```
发现节点内存使用率接近 100%
检查 OBServer 内存配置：
sql
```
SHOW PARAMETERS LIKE '%memory%';
```
发现 memory_limit 参数设置过小，无法满足业务需求
分析业务流量：发现故障发生前业务量突增，导致内存使用超过限制

故障处理过程

紧急恢复：

bash

# 重启 OBServer 进程
cd /home/admin/oceanbase && ./bin/observer

临时扩容：

sql

-- 临时增加内存限制
ALTER SYSTEM SET memory_limit = '32G';

优化配置：

sql

-- 调整内存相关参数
ALTER SYSTEM SET memory_chunk_cache_size = '8G';
ALTER SYSTEM SET memory_large_query_threshold = '1G';
ALTER SYSTEM SET memory_limit_percentage = 80;

业务优化：
- 优化慢查询
- 调整连接池配置
- 分流业务流量

经验教训与改进措施

配置优化：
- 根据业务需求合理配置内存参数
- 定期审查和调整配置参数
- 设置内存使用告警阈值
监控增强：
- 增加内存使用率监控
- 配置内存使用趋势分析
- 设置 OOM 预警机制
流程改进：
- 建立业务变更前的配置评估流程
- 制定大流量场景的应急方案
- 定期进行内存使用分析

案例二：磁盘 I/O 瓶颈故障

故障现象

监控系统告警：磁盘 I/O 使用率接近 100%
业务响应时间延长
慢查询数量增加
SSTable 合并延迟

故障原因分析

初步检查

查看磁盘 I/O 监控：
bash
```
iostat -x 1
iotop
```
发现磁盘写入带宽达到饱和
查看 OBServer 日志，发现大量合并任务等待执行

深入分析

检查合并相关参数：
sql
```
SHOW PARAMETERS LIKE '%merge%';
```
发现 minor_merge_concurrency 和 major_merge_concurrency 设置过大

检查合并任务状态：

sql

SELECT * FROM oceanbase.GV$OB_MERGE_STATUS;

发现同时有多个合并任务在执行
分析业务写入模式：发现业务存在大量批量写入操作

故障处理过程

调整合并参数：

sql

-- 降低合并并发度
ALTER SYSTEM SET minor_merge_concurrency = 2;
ALTER SYSTEM SET major_merge_concurrency = 1;

-- 调整合并触发条件
ALTER SYSTEM SET minor_freeze_times = 4;
ALTER SYSTEM SET major_freeze_duty_time = '03:00';

优化写入模式：
- 调整业务批量写入大小
- 分散写入时间，避免集中写入
- 优化写入语句，减少日志生成
临时扩容：
- 添加新节点分担负载
- 迁移热点副本到新节点

经验教训与改进措施

合并优化：
- 根据磁盘性能调整合并并发度
- 在业务低峰期执行大合并
- 监控合并任务执行情况
存储优化：
- 使用高性能磁盘（如 SSD）
- 优化磁盘 I/O 调度策略
- 合理规划数据目录分布
写入优化：
- 优化业务写入模式
- 调整批量写入大小
- 考虑使用分区表分散写入压力

案例三：网络分区故障

故障现象

监控系统告警：节点间通信异常
集群分裂为多个分区
副本状态显示 INACTIVE
业务出现读写不一致

故障原因分析

初步检查

检查网络连接：

bash

ping <other_node_ip>
traceroute <other_node_ip>

发现节点间网络延迟超过 1000ms

查看集群状态：

sql

SELECT * FROM oceanbase.GV$OB_CLUSTER_STATUS;

发现集群分裂为两个分区

深入分析

检查网络设备：
- 交换机状态
- 网络线缆连接
- 防火墙规则
发现故障原因是交换机固件版本过低，导致大流量下网络丢包
检查 Paxos 相关参数：
sql
```
SHOW PARAMETERS LIKE '%paxos%';
```
发现 paxos_timeout 设置过小，无法适应网络延迟

故障处理过程

修复网络故障：
- 升级交换机固件
- 优化网络拓扑
- 增加网络带宽

调整 Paxos 参数：

sql

-- 增加 Paxos 超时时间
ALTER SYSTEM SET paxos_timeout = '20000';

-- 增加选举重试间隔
ALTER SYSTEM SET paxos_election_retry_interval = '2000';

恢复集群一致性：
- 等待网络恢复后，集群自动合并
- 验证副本同步状态：
  sql
```
SELECT * FROM oceanbase.GV$OB_REPLICA_SYNC_STATUS;
```
- 确认所有副本状态正常

经验教训与改进措施

网络优化：
- 定期检查和升级网络设备
- 优化网络拓扑结构
- 配置网络冗余
参数调整：
- 根据网络环境调整 Paxos 参数
- 设置合理的超时时间
- 配置网络故障检测机制
监控增强：
- 增加节点间网络延迟监控
- 配置网络分区告警
- 建立网络故障自动切换机制

案例四：事务死锁故障

故障现象

监控系统告警：死锁数量增加
业务出现大量事务超时
活跃连接数持续增长
CPU 使用率异常升高

故障原因分析

初步检查

查看死锁日志：

sql

SELECT * FROM oceanbase.GV$OB_DEADLOCK_EVENT ORDER BY event_time DESC;

发现大量事务在争夺相同资源

查看活跃事务：

sql

SELECT * FROM oceanbase.GV$OB_TRANSACTIONS WHERE status = 'ACTIVE' ORDER BY elasped_time DESC;

发现有长事务持有锁资源

深入分析

分析死锁产生的 SQL：

sql

SELECT * FROM oceanbase.GV$OB_SLOW_QUERY WHERE sql_text LIKE '%FOR UPDATE%' ORDER BY request_time DESC;

发现业务代码中存在嵌套事务

检查事务隔离级别：

sql

SHOW PARAMETERS LIKE 'transaction_isolation';

发现隔离级别设置为 REPEATABLE READ，增加了死锁风险
分析业务逻辑：发现多个事务同时更新相同的记录集，但更新顺序不一致

故障处理过程

终止长事务：

sql

-- 查看长事务
SELECT * FROM oceanbase.GV$OB_TRANSACTIONS WHERE elasped_time > 60000000;

-- 终止长事务
ALTER SYSTEM KILL SESSION 'sid, serial#';

调整事务隔离级别：

sql

-- 降低隔离级别
ALTER TENANT tenant1 SET transaction_isolation = 'READ COMMITTED';

优化业务代码：
- 减少事务持有时间
- 统一更新顺序
- 避免嵌套事务
- 使用乐观锁替代悲观锁

调整死锁检测参数：

sql

-- 启用死锁检测
ALTER SYSTEM SET enable_deadlock_detection = TRUE;

-- 调整死锁检测间隔
ALTER SYSTEM SET deadlock_detection_interval = 500000; -- 0.5秒

经验教训与改进措施

事务优化：
- 选择合适的事务隔离级别
- 减少事务持有时间
- 避免长事务
- 统一更新顺序
监控增强：
- 增加死锁监控
- 配置长事务告警
- 设置事务超时告警
开发规范：
- 制定事务使用规范
- 进行代码审查，避免死锁风险
- 培训开发人员理解死锁产生原因

案例五：OBProxy 性能瓶颈故障

故障现象

客户端连接超时
监控系统告警：OBProxy 连接数接近上限
业务响应时间延长
OBProxy 进程 CPU 使用率接近 100%

故障原因分析

初步检查

查看 OBProxy 状态：

bash

ps -ef | grep obproxy
top -c | grep obproxy

发现 OBProxy 进程 CPU 使用率超过 95%

查看 OBProxy 连接数：

sql

SELECT * FROM oceanbase.GV$OB_PROXY_CONNECTIONS;

发现连接数接近配置上限

深入分析

检查 OBProxy 配置：

bash

cat /home/admin/obproxy/conf/obproxy.conf

发现 max_connection 参数设置过小

检查 OBProxy 路由规则：

sql

SELECT * FROM oceanbase.GV$OB_PROXY_ROUTER;

发现路由规则不合理，导致请求集中到少数节点
分析客户端连接池配置：发现客户端连接池大小设置过大

故障处理过程

紧急扩容：

bash

# 启动多个 OBProxy 进程
cd /home/admin/obproxy && ./bin/obproxy -c conf/obproxy.conf -n 1
cd /home/admin/obproxy && ./bin/obproxy -c conf/obproxy.conf -n 2

调整 OBProxy 配置：

bash

# 修改 obproxy.conf
max_connection=10000

优化路由规则：

sql

-- 调整路由规则，分散请求
ALTER PROXYCONFIG SET router_mode = 'random';
ALTER PROXYCONFIG SET proxy_mem_limited = '8G';

优化客户端配置：
- 调整客户端连接池大小
- 增加连接超时时间
- 实现连接池动态调整

经验教训与改进措施

OBProxy 优化：
- 合理配置连接数上限
- 优化路由规则
- 部署多个 OBProxy 实例
- 实现负载均衡
客户端优化：
- 合理配置连接池大小
- 实现连接复用
- 增加连接超时设置
监控增强：
- 增加 OBProxy 连接数监控
- 配置 OBProxy CPU 使用率告警
- 监控路由分布情况

案例六：副本分布不均故障

故障现象

监控系统告警：部分节点负载过高
业务响应时间不稳定
副本同步延迟
节点资源使用率差异大

故障原因分析

初步检查

查看节点负载：

sql

SELECT * FROM oceanbase.GV$OB_SERVER_STAT WHERE stat_id = 'cpu_total';

发现部分节点 CPU 使用率超过 80%，而其他节点使用率不足 30%

查看副本分布：

sql

SELECT svr_ip, count(*) FROM oceanbase.GV$OB_REPLICA GROUP BY svr_ip;

发现副本分布严重不均，部分节点承载了大量副本

深入分析

检查副本分布策略：
sql
```
SHOW PARAMETERS LIKE '%replica%';
```
发现 replica_distribution 参数配置不合理
分析节点资源配置：发现节点间硬件配置差异较大
检查业务访问模式：发现部分表存在热点访问

故障处理过程

手动均衡副本：

sql

-- 迁移副本到负载较低的节点
ALTER SYSTEM MIGRATE REPLICA table_name PARTITION partition_name TO '10.0.0.4:2882';

调整副本分布策略：

sql

-- 优化副本分布策略
ALTER SYSTEM SET replica_distribution = 'balanced';
ALTER SYSTEM SET replica_balance_threshold = 10;

优化资源配置：

sql

-- 调整节点资源配置
ALTER SYSTEM SET resource_unit_config = 'unit_config_high' FOR SERVER '10.0.0.4:2882';

热点表优化：
- 对热点表进行分区
- 优化查询条件
- 增加副本数量

经验教训与改进措施

副本管理：
- 定期检查副本分布情况
- 配置合理的副本分布策略
- 实现自动副本均衡
资源规划：
- 节点硬件配置保持一致
- 根据业务需求合理分配资源
- 定期进行资源使用分析
热点优化：
- 识别热点表并进行优化
- 实现热点数据分散存储
- 优化业务访问模式

常见问题（FAQ）

Q1: 如何快速定位故障原因？

A1: 快速定位故障原因的方法：

查看监控系统告警
检查相关日志
分析系统和数据库状态
使用诊断工具
结合业务现象进行综合分析

Q2: 故障处理的优先级是什么？

A2: 故障处理的优先级：

保障业务连续性
确保数据一致性
恢复系统性能
彻底修复故障
进行优化改进

Q3: 如何避免类似故障再次发生？

A3: 避免类似故障的方法：

分析故障根本原因
实施针对性的改进措施
优化配置和流程
增强监控和告警
定期进行故障演练

Q4: 如何进行故障复盘？

A4: 故障复盘的步骤：

收集故障相关信息
还原故障发生过程
分析故障根本原因
总结经验教训
制定改进措施
跟踪改进措施的执行情况

Q5: 如何建立有效的故障处理团队？

A5: 建立有效故障处理团队的方法：

明确团队角色和职责
建立故障处理流程
定期进行培训和演练
建立知识共享机制
持续优化团队协作

Q6: 如何使用故障案例提高运维能力？

A6: 使用故障案例提高运维能力的方法：

定期组织故障案例学习
分析案例中的问题和解决方案
总结经验教训
将经验应用到实际工作中
建立故障案例库

OceanBase 故障案例分析 ​

案例一：OBServer 进程崩溃故障 ​

故障现象 ​

故障原因分析 ​

初步检查 ​

深入分析 ​

故障处理过程 ​

经验教训与改进措施 ​

案例二：磁盘 I/O 瓶颈故障 ​

故障现象 ​

故障原因分析 ​

初步检查 ​

深入分析 ​

故障处理过程 ​

经验教训与改进措施 ​

案例三：网络分区故障 ​

故障现象 ​

故障原因分析 ​

初步检查 ​

深入分析 ​

故障处理过程 ​

经验教训与改进措施 ​

案例四：事务死锁故障 ​

故障现象 ​

故障原因分析 ​

初步检查 ​

深入分析 ​

故障处理过程 ​

经验教训与改进措施 ​

案例五：OBProxy 性能瓶颈故障 ​

故障现象 ​

故障原因分析 ​

初步检查 ​

深入分析 ​

故障处理过程 ​

经验教训与改进措施 ​

案例六：副本分布不均故障 ​

故障现象 ​

故障原因分析 ​

初步检查 ​

深入分析 ​

故障处理过程 ​

经验教训与改进措施 ​

常见问题（FAQ） ​

Q1: 如何快速定位故障原因？ ​

Q2: 故障处理的优先级是什么？ ​

Q3: 如何避免类似故障再次发生？ ​

Q4: 如何进行故障复盘？ ​

Q5: 如何建立有效的故障处理团队？ ​

Q6: 如何使用故障案例提高运维能力？ ​

OceanBase 故障案例分析

案例一：OBServer 进程崩溃故障

故障现象

故障原因分析

初步检查

深入分析

故障处理过程

经验教训与改进措施

案例二：磁盘 I/O 瓶颈故障

故障现象

故障原因分析

初步检查

深入分析

故障处理过程

经验教训与改进措施

案例三：网络分区故障

故障现象

故障原因分析

初步检查

深入分析

故障处理过程

经验教训与改进措施

案例四：事务死锁故障

故障现象

故障原因分析

初步检查

深入分析

故障处理过程

经验教训与改进措施

案例五：OBProxy 性能瓶颈故障

故障现象

故障原因分析

初步检查

深入分析

故障处理过程

经验教训与改进措施

案例六：副本分布不均故障

故障现象

故障原因分析

初步检查

深入分析

故障处理过程

经验教训与改进措施

常见问题（FAQ）

Q1: 如何快速定位故障原因？

Q2: 故障处理的优先级是什么？

Q3: 如何避免类似故障再次发生？

Q4: 如何进行故障复盘？

Q5: 如何建立有效的故障处理团队？

Q6: 如何使用故障案例提高运维能力？