DB2 手动故障转移

手动故障转移概述

DB2 手动故障转移是指在主数据库出现故障或需要进行维护时，通过手动操作将数据库服务切换到备用数据库的过程。手动故障转移是DB2高可用性解决方案的重要组成部分，适用于各种高可用性架构，如HADR（High Availability Disaster Recovery）、PureScale等。

手动故障转移的概念

故障转移：将数据库服务从主节点切换到备用节点的过程
手动故障转移：由数据库管理员主动发起的故障转移操作
自动故障转移：由系统自动检测故障并发起的故障转移操作
计划性故障转移：为了进行维护或升级而主动发起的故障转移
非计划性故障转移：由于主节点故障而被动发起的故障转移

手动故障转移的适用场景

主数据库计划维护：如操作系统升级、硬件更换、补丁安装等
主数据库性能问题：主数据库性能严重下降，需要切换到备用数据库
自动故障转移失败：自动故障转移机制失效，需要手动干预
测试高可用性机制：验证手动故障转移流程的有效性
特定业务需求：根据业务需要手动控制故障转移时机

HADR 手动故障转移

HADR 架构概述

HADR是DB2提供的高可用性和灾难恢复解决方案，通过日志复制机制将主数据库（Primary）的日志实时复制到备用数据库（Standby），确保数据一致性。HADR支持三种同步模式：

同步模式：主数据库等待备用数据库确认日志已写入磁盘后才提交事务
近同步模式：主数据库等待备用数据库确认日志已收到后才提交事务
异步模式：主数据库无需等待备用数据库确认，直接提交事务

HADR 手动故障转移前提条件

HADR 已正确配置并处于同步状态
备用数据库已启动并处于 "PEER" 或 "CATCHUP" 状态
数据库管理员具有足够的权限执行故障转移操作
已备份数据库配置和关键数据
已制定详细的故障转移计划和回滚策略

HADR 手动故障转移操作流程

1. 故障转移前准备

检查HADR状态：在主数据库上执行以下命令，确认HADR状态
bash
```
db2pd -hadr -db <数据库名>
```
确认备用数据库状态：确保备用数据库处于 "PEER" 状态，数据已同步
通知相关部门：告知业务部门和相关团队即将进行故障转移
停止应用程序连接：确保所有应用程序已停止连接到主数据库

2. 执行故障转移操作

场景一：主数据库仍可访问（计划性故障转移）

在主数据库上执行接管命令：

bash

db2 takeover hadr on db <数据库名> by force

或

bash

db2 takeover hadr on db <数据库名> with standby access

在备用数据库上执行接管命令（如果上述命令失败）：
bash
```
db2 takeover hadr on db <数据库名> by force
```

场景二：主数据库不可访问（非计划性故障转移）

在备用数据库上执行接管命令：

bash

db2 takeover hadr on db <数据库名> by force

验证接管结果：
bash
```
db2pd -hadr -db <数据库名>
```
确认备用数据库已切换为 "PRIMARY" 状态

3. 故障转移后验证

检查新主数据库状态：确认新主数据库正常运行
bash
```
db2 connect to <数据库名>
db2 list applications
```
验证数据完整性：执行数据一致性检查，确保数据未丢失
bash
```
db2 check data
db2 check index all
```
恢复应用程序连接：允许应用程序连接到新主数据库
更新客户端配置：如果需要，更新客户端连接配置，指向新主数据库

重新配置HADR：将原主数据库配置为新的备用数据库，重建HADR关系

bash

# 在原主数据库上执行
db2 start hadr on db <数据库名> as standby for hadr peer window automatic

HADR 手动故障转移注意事项

同步状态检查：在执行故障转移前，确保备用数据库与主数据库的同步状态良好
应用程序处理：故障转移前应停止应用程序连接，避免数据不一致
客户端配置更新：故障转移后需要更新客户端连接配置，指向新主数据库
HADR关系重建：故障转移后需要重新配置HADR，确保高可用性继续有效
数据一致性验证：故障转移后必须验证数据完整性，确保数据未丢失

PureScale 手动故障转移

PureScale 架构概述

DB2 PureScale是基于共享磁盘的集群数据库解决方案，通过集群管理器（RSCT）和分布式锁管理器（GLM）实现高可用性和可扩展性。PureScale集群包含多个成员节点和一个或多个CF（Cluster Caching Facility）节点。

PureScale 手动故障转移适用场景

成员节点维护：需要对特定成员节点进行维护或升级
CF节点故障：CF节点出现故障，需要手动切换到备用CF节点
负载均衡调整：需要调整集群负载分布
测试集群功能：验证手动故障转移流程的有效性

PureScale 手动故障转移操作流程

1. 成员节点手动故障转移

bash

# 1. 检查集群状态
 db2instance -list
 db2cluster -status

# 2. 停止应用程序在目标成员节点上的连接
# 可以使用db2 force application命令强制断开连接

# 3. 停止目标成员节点
 db2stop member <成员ID>

# 4. 验证成员节点已停止
 db2instance -list

# 5. 进行维护操作
# ...

# 6. 启动成员节点
 db2start member <成员ID>

# 7. 验证成员节点已启动并正常运行
 db2instance -list
 db2cluster -status

2. CF节点手动故障转移

bash

# 1. 检查CF节点状态
 db2cluster -cfstatus

# 2. 执行CF节点故障转移
 db2cluster -failover -cf <CF节点名>

# 3. 验证CF节点故障转移结果
 db2cluster -cfstatus

# 4. 检查集群状态
 db2cluster -status

手动故障转移最佳实践

1. 制定详细的故障转移计划

故障转移流程文档化：详细记录故障转移的每一步操作
角色和职责明确：明确各团队成员在故障转移过程中的职责
沟通机制建立：建立有效的沟通渠道，确保信息及时传递
回滚方案制定：制定详细的回滚策略，以备故障转移失败时使用

2. 定期测试故障转移流程

测试频率：每季度至少进行一次故障转移测试
测试环境：在测试环境中模拟各种故障场景
测试内容：包括计划性和非计划性故障转移
测试结果评估：记录测试结果，分析存在的问题，优化故障转移流程

3. 故障转移前准备工作

备份关键数据：在执行故障转移前，备份数据库配置和关键数据
检查系统状态：确保备用系统处于良好状态
通知相关部门：提前通知业务部门和相关团队
准备工具和资源：确保所需的工具和资源已准备就绪

4. 故障转移后操作

验证系统状态：确认新主系统正常运行
恢复业务连接：逐步恢复应用程序连接
监控系统性能：密切监控新主系统的性能
更新文档和配置：更新系统文档和配置信息

5. 常见问题处理

故障转移失败：检查错误日志，分析失败原因，执行回滚操作
数据不一致：使用备份恢复数据，或重新同步主备数据库
应用程序连接问题：检查网络连接和客户端配置，确保应用程序能够连接到新主数据库
性能下降：分析性能瓶颈，调整系统配置或优化应用程序

版本差异

DB2版本	手动故障转移差异
10.5	HADR手动故障转移命令相对简单，支持的同步模式较少
11.1	增强了HADR功能，支持更多同步模式，优化了故障转移性能
11.5	引入了自动故障转移功能（HADR with Automatic Client Reroute），简化了手动故障转移流程
11.5.8+	增强了PureScale手动故障转移功能，支持更多自动化操作，优化了集群管理界面

生产实践

1. 故障转移时间优化

减少应用程序停机时间：使用连接池和自动重连机制，减少应用程序感知的停机时间
优化HADR同步模式：根据业务需求选择合适的同步模式，平衡数据一致性和性能
预准备工作：提前完成故障转移前的准备工作，减少故障转移执行时间

2. 大型环境故障转移策略

分批次切换：对于大型环境，考虑分批次切换应用程序连接，避免系统负载突增
滚动切换：对于集群环境，使用滚动切换方式，减少整体停机时间
并行操作：在故障转移过程中，并行执行多个操作，提高效率

3. 故障转移监控和审计

监控故障转移过程：记录故障转移的每一步操作和状态变化
审计故障转移操作：记录谁执行了故障转移操作，以及操作时间和原因
分析故障转移数据：定期分析故障转移数据，优化故障转移流程

4. 故障转移自动化

脚本自动化：编写自动化脚本，简化故障转移操作
集成监控系统：将故障转移流程与监控系统集成，实现半自动化故障转移
使用自动化工具：如IBM Data Server Manager（DSM），提供图形化的故障转移界面

常见问题（FAQ）

Q1: 手动故障转移和自动故障转移有什么区别？

A1: 主要区别在于发起方式和时机：

手动故障转移：由数据库管理员主动发起，适用于计划维护或自动故障转移失败的情况
自动故障转移：由系统自动检测故障并发起，适用于非计划故障

Q2: HADR手动故障转移会导致数据丢失吗？

A2: 数据丢失风险取决于HADR同步模式：

同步模式：无数据丢失风险，主数据库等待备用数据库确认日志已写入磁盘
近同步模式：几乎无数据丢失风险，主数据库等待备用数据库确认日志已收到
异步模式：存在数据丢失风险，主数据库无需等待备用数据库确认

Q3: 如何验证HADR手动故障转移是否成功？

A3: 验证方法：

检查新主数据库状态：db2pd -hadr -db <数据库名>
确认新主数据库处于 "PRIMARY" 状态
验证应用程序能够正常连接
执行数据一致性检查

Q4: 手动故障转移失败后如何处理？

A4: 处理方法：

检查错误日志，分析失败原因
尝试重新执行故障转移操作
如果多次尝试失败，执行回滚操作
联系IBM支持寻求帮助

Q5: 如何减少手动故障转移的停机时间？

A5: 减少停机时间的方法：

优化HADR同步模式，使用近同步或同步模式
提前完成故障转移前的准备工作
使用自动化脚本简化故障转移操作
优化应用程序连接管理，支持自动重连

Q6: PureScale手动故障转移和HADR手动故障转移有什么区别？

A6: 主要区别在于架构和实现方式：

PureScale：基于共享磁盘架构，故障转移是在集群内部切换成员节点或CF节点
HADR：基于日志复制架构，故障转移是将备用数据库提升为主数据库

Q7: 手动故障转移前需要停止应用程序吗？

A7: 是的，建议在执行手动故障转移前停止应用程序连接，原因：

避免在故障转移过程中出现数据不一致
减少应用程序连接错误
确保故障转移过程顺利进行

Q8: 如何测试手动故障转移流程？

A8: 测试方法：

在测试环境中模拟主数据库故障
按照故障转移计划执行手动故障转移
验证故障转移结果和数据完整性
记录测试过程和结果，优化故障转移流程

Q9: 手动故障转移后需要重新配置HADR吗？

A9: 是的，故障转移后需要重新配置HADR：

将原主数据库配置为新的备用数据库
重建HADR关系
确保数据同步正常

Q10: 如何制定手动故障转移计划？

A10: 制定故障转移计划的步骤：

确定故障转移的触发条件
定义故障转移的角色和职责
详细记录故障转移的每一步操作
制定回滚策略
建立沟通机制
定期测试和更新故障转移计划

DB2 手动故障转移 ​

手动故障转移概述 ​

手动故障转移的概念 ​

手动故障转移的适用场景 ​

HADR 手动故障转移 ​

HADR 架构概述 ​

HADR 手动故障转移前提条件 ​

HADR 手动故障转移操作流程 ​

1. 故障转移前准备 ​

2. 执行故障转移操作 ​

场景一：主数据库仍可访问（计划性故障转移） ​

场景二：主数据库不可访问（非计划性故障转移） ​

3. 故障转移后验证 ​

HADR 手动故障转移注意事项 ​

PureScale 手动故障转移 ​

PureScale 架构概述 ​

PureScale 手动故障转移适用场景 ​

PureScale 手动故障转移操作流程 ​

1. 成员节点手动故障转移 ​

2. CF节点手动故障转移 ​

手动故障转移最佳实践 ​

1. 制定详细的故障转移计划 ​

2. 定期测试故障转移流程 ​

3. 故障转移前准备工作 ​

4. 故障转移后操作 ​

5. 常见问题处理 ​

版本差异 ​

生产实践 ​

1. 故障转移时间优化 ​

2. 大型环境故障转移策略 ​

3. 故障转移监控和审计 ​

4. 故障转移自动化 ​

常见问题（FAQ） ​

Q1: 手动故障转移和自动故障转移有什么区别？ ​

Q2: HADR手动故障转移会导致数据丢失吗？ ​

Q3: 如何验证HADR手动故障转移是否成功？ ​

Q4: 手动故障转移失败后如何处理？ ​

Q5: 如何减少手动故障转移的停机时间？ ​

Q6: PureScale手动故障转移和HADR手动故障转移有什么区别？ ​

Q7: 手动故障转移前需要停止应用程序吗？ ​

Q8: 如何测试手动故障转移流程？ ​

Q9: 手动故障转移后需要重新配置HADR吗？ ​

Q10: 如何制定手动故障转移计划？ ​

DB2 手动故障转移

手动故障转移概述

手动故障转移的概念

手动故障转移的适用场景

HADR 手动故障转移

HADR 架构概述

HADR 手动故障转移前提条件

HADR 手动故障转移操作流程

1. 故障转移前准备

2. 执行故障转移操作

场景一：主数据库仍可访问（计划性故障转移）

场景二：主数据库不可访问（非计划性故障转移）

3. 故障转移后验证

HADR 手动故障转移注意事项

PureScale 手动故障转移

PureScale 架构概述

PureScale 手动故障转移适用场景

PureScale 手动故障转移操作流程

1. 成员节点手动故障转移

2. CF节点手动故障转移

手动故障转移最佳实践

1. 制定详细的故障转移计划

2. 定期测试故障转移流程

3. 故障转移前准备工作

4. 故障转移后操作

5. 常见问题处理

版本差异

生产实践

1. 故障转移时间优化

2. 大型环境故障转移策略

3. 故障转移监控和审计

4. 故障转移自动化

常见问题（FAQ）

Q1: 手动故障转移和自动故障转移有什么区别？

Q2: HADR手动故障转移会导致数据丢失吗？

Q3: 如何验证HADR手动故障转移是否成功？

Q4: 手动故障转移失败后如何处理？

Q5: 如何减少手动故障转移的停机时间？

Q6: PureScale手动故障转移和HADR手动故障转移有什么区别？

Q7: 手动故障转移前需要停止应用程序吗？

Q8: 如何测试手动故障转移流程？

Q9: 手动故障转移后需要重新配置HADR吗？

Q10: 如何制定手动故障转移计划？