KingBaseES 性能报告指标解读

概述

KingBaseES 性能报告是数据库运维的核心工具，它全面反映了数据库运行状态、资源使用情况和业务负载特征。通过准确解读性能报告中的各项指标，DBA 能够及时发现性能瓶颈、定位故障根因、优化系统配置，确保数据库稳定高效运行。

性能报告结构

KingBaseES 性能报告通常包含以下核心部分：

实例概览：数据库基本信息和关键性能指标
CPU 分析：CPU 资源使用分布和瓶颈识别
内存使用：内存分配与缓存效率分析
磁盘 I/O：存储性能和 I/O 瓶颈定位
数据库活动：连接、事务和 SQL 执行情况
锁与等待：锁竞争和等待事件分析
复制状态：主备复制延迟和同步情况
SQL 性能：SQL 执行效率和慢查询分析
索引使用：索引访问效率和优化建议
表访问：表级访问模式和热点识别

关键指标解读

实例概览指标

TPS (每秒事务数)

含义：数据库每秒处理的事务数量，直接反映事务处理能力

正常范围：

高并发 OLTP 系统：1000-10000 TPS
普通业务系统：100-1000 TPS
低并发系统：10-100 TPS

生产场景解读：

TPS 突然下降：需检查是否存在资源瓶颈、锁竞争或慢 SQL
TPS 持续低于业务需求：考虑优化数据库配置或升级硬件
TPS 波动过大：分析业务流量模式，评估是否需要扩容

优化建议：

优化慢 SQL 语句，减少事务执行时间
调整 shared_buffers、work_mem 等核心参数
考虑读写分离架构，分担主库压力
高并发场景下评估使用集群架构

QPS (每秒查询数)

含义：数据库每秒处理的查询请求数量，反映查询处理能力

正常范围：

通常为 TPS 的 5-10 倍
具体数值与业务模型强相关

生产场景解读：

QPS 突然激增：检查是否存在业务突发流量或异常查询
QPS 与 TPS 比例失衡：分析是否存在大量低效查询
QPS 持续增长：结合资源使用率评估是否需要扩容

优化建议：

实施查询缓存机制，减少重复计算
优化慢查询，提高查询执行效率
考虑读写分离，分担查询压力
分析异常查询来源，必要时实施限流

连接数

含义：当前数据库的活跃连接和总连接数量

正常范围：

总连接数不超过 max_connections 配置
活跃连接数通常不超过 CPU 核心数的 2-4 倍

生产场景解读：

连接数接近 max_connections：新连接将无法建立，需紧急处理
大量空闲连接：浪费系统资源，可能导致连接池耗尽
连接数波动过大：检查应用程序连接管理是否合理

优化建议：

根据实际负载调整 max_connections 参数
实施连接池机制，优化连接复用
配置连接超时，定期清理空闲连接
检查应用程序连接泄露问题

CPU 分析指标

总体 CPU 使用率

含义：数据库服务器的 CPU 资源总体消耗情况

正常范围：

稳定运行：40%-70%
峰值负载：不超过 90%

生产场景解读：

CPU 持续超过 90%：系统响应会显著变慢，需立即优化
CPU 突然激增：检查是否存在异常查询或大量并发请求
CPU 使用率过低：可能存在 I/O 瓶颈或系统资源浪费

优化建议：

识别并优化 CPU 密集型 SQL
调整 max_parallel_workers 等并行查询参数
考虑 CPU 亲和性配置，提高 CPU 利用率
高负载场景下评估升级 CPU 资源

用户 CPU 使用率

含义：用于处理用户 SQL 请求的 CPU 消耗比例

正常范围：占总体 CPU 使用率的 60%-80%

生产场景解读：

用户 CPU 过高：存在复杂查询或低效 SQL，需重点优化
用户 CPU 过低：可能存在 I/O 瓶颈，CPU 处于等待状态

优化建议：

优化慢 SQL 语句，减少计算复杂度
增加索引，减少全表扫描
考虑使用并行查询，提高 CPU 利用率

系统 CPU 使用率

含义：操作系统内核操作消耗的 CPU 比例

正常范围：占总体 CPU 使用率的 20%-40%

生产场景解读：

系统 CPU 过高：通常由大量 I/O 操作或系统调用引起
系统 CPU 持续增长：检查文件系统、网络配置是否合理

优化建议：

优化 I/O 操作，调整 shared_buffers 等参数
检查系统配置，如文件系统类型、网络设置
考虑使用更高效的存储设备，减少 I/O 开销

内存使用指标

总体内存使用率

含义：数据库服务器的内存资源总体消耗

正常范围：

稳定运行：70%-85%
峰值负载：不超过 95%

生产场景解读：

内存持续超过 95%：系统可能频繁交换，严重影响性能
内存使用率过低：资源浪费，可考虑调整数据库内存配置

优化建议：

根据系统负载调整 shared_buffers、work_mem 等参数
优化内存密集型操作，如排序、哈希计算
检查是否存在内存泄漏问题
高内存需求场景下评估扩容

共享缓冲区使用率

含义：KingBaseES 共享缓冲区的使用效率

正常范围：

缓存命中率：95% 以上
缓冲区使用率：60%-80%

生产场景解读：

缓存命中率低于 90%：大量磁盘 I/O，影响查询性能
缓冲区使用率过高：可能导致缓冲区争用，影响并发性能

优化建议：

调整 shared_buffers 参数，一般建议为系统内存的 25%-40%
优化查询，减少缓冲区无效访问
考虑使用更快的存储设备，降低 I/O 延迟

工作内存使用率

含义：SQL 执行过程中工作内存的分配和使用情况

正常范围：

单个查询使用内存不超过 work_mem 配置
总体工作内存分配合理，无频繁溢出

生产场景解读：

大量查询使用临时文件：work_mem 设置过小，影响查询效率
工作内存使用过高：可能导致内存不足，影响系统稳定性

优化建议：

根据查询复杂度调整 work_mem 参数
优化复杂查询，减少排序、哈希等内存密集型操作
限制并发查询数量，避免内存资源耗尽

磁盘 I/O 指标

磁盘读写速率

含义：每秒从磁盘读取和写入的数据量

正常范围：

取决于存储设备性能，SSD 通常可达数百 MB/s
稳定运行时不超过存储设备最佳性能的 80%

生产场景解读：

读写速率持续接近设备极限：存在 I/O 瓶颈，需优化
速率突然激增：检查是否存在大量全表扫描或批量写入
写入速率远高于读取速率：可能是批量更新或数据导入场景

优化建议：

优化查询，减少不必要的磁盘 I/O
增加索引，避免全表扫描
调整 shared_buffers 参数，提高缓存命中率
考虑使用更快的存储设备或 RAID 配置

I/O 等待时间

含义：CPU 等待 I/O 操作完成的时间百分比

正常范围：

稳定运行：不超过 20%
峰值负载：不超过 40%

生产场景解读：

I/O 等待持续超过 40%：存在严重 I/O 瓶颈，CPU 大量空闲
I/O 等待突然增加：检查是否存在异常 I/O 操作

优化建议：

优化查询，减少 I/O 操作次数
调整数据库参数，如 checkpoint_timeout、max_wal_size
升级存储设备，使用 SSD 替代 HDD
考虑使用分布式存储或 SAN 存储

数据库活动指标

事务提交率

含义：已提交事务数占总事务数的比例

正常范围：95% 以上，具体取决于业务逻辑

生产场景解读：

提交率过低：存在大量事务回滚，需检查业务逻辑或数据库错误
提交率突然下降：可能是应用程序异常或数据库故障

优化建议：

检查应用程序日志，查找事务回滚原因
分析数据库错误日志，定位异常源头
优化业务逻辑，减少不必要的事务回滚

活跃事务数

含义：当前正在执行的事务数量

正常范围：

取决于系统配置和业务负载
一般不超过总连接数的 50%

生产场景解读：

活跃事务过多：可能导致锁竞争加剧，影响系统并发能力
长时间运行事务：可能导致长事务问题，影响 VACUUM 效率

优化建议：

优化长事务，减少事务持有时间
实施事务超时机制，自动终止长时间运行事务
调整锁超时参数，避免无限等待
考虑使用异步处理，分解长事务

慢查询数量

含义：执行时间超过阈值的查询数量

正常范围：

理想状态：0
生产环境：占总查询数比例低于 0.1%

生产场景解读：

慢查询数量突然增加：检查是否存在查询计划变化或数据分布变化
慢查询比例过高：系统性能会显著下降，需立即优化

优化建议：

分析慢查询日志，识别低效 SQL
检查是否缺少索引或统计信息过时
调整慢查询日志阈值，精准捕获问题 SQL
考虑使用自动 SQL 优化工具

锁与等待指标

锁等待次数

含义：事务等待锁资源的总次数

正常范围：

理想状态：0
生产环境：占总事务数比例低于 0.1%

生产场景解读：

锁等待次数突然增加：锁竞争加剧，需分析锁源
锁等待比例过高：系统并发能力下降，响应变慢

优化建议：

优化事务，减少锁持有时间
调整事务隔离级别，降低锁竞争
增加索引，减少锁范围
考虑使用乐观锁机制

平均锁等待时间

含义：事务等待锁资源的平均时间

正常范围：

理想状态：0
生产环境：平均等待时间低于 100ms

生产场景解读：

平均等待时间过长：事务延迟严重，影响用户体验
等待时间波动大：锁竞争不稳定，需持续监控

优化建议：

优化慢事务，减少锁占用时间
调整 lock_timeout 参数，避免无限等待
考虑使用更细粒度的锁，降低冲突概率

主要等待事件

含义：事务等待的主要事件类型，如 I/O 等待、锁等待等

正常情况：

主要等待事件为 CPU 或空闲
I/O 等待和锁等待占比较小

生产场景解读：

主要等待事件为 I/O 等待：存在 I/O 瓶颈
主要等待事件为锁等待：存在锁竞争问题
主要等待事件为缓冲区等待：内存配置不合理

优化建议：

I/O 等待：优化查询或升级存储设备
锁等待：优化事务或调整隔离级别
缓冲区等待：调整内存参数或优化查询

复制状态指标

复制延迟

含义：备库与主库之间的数据同步延迟时间

正常范围：

同步复制：延迟小于 1 秒
异步复制：延迟小于 5 秒

生产场景解读：

复制延迟持续增加：存在数据不一致风险，需紧急处理
延迟突然增大：检查网络连接或备库性能
延迟波动大：可能是网络不稳定或备库负载过高

优化建议：

检查主备网络连接和带宽
优化备库性能，确保能及时应用 WAL
调整 synchronous_commit 等复制参数
考虑使用更高效的复制方式

WAL 发送与应用速率

含义：主库发送 WAL 日志和备库应用 WAL 日志的速率

正常范围：

发送速率与 WAL 生成速率匹配
应用速率与发送速率匹配

生产场景解读：

发送速率低于生成速率：可能导致 WAL 堆积
应用速率低于发送速率：导致复制延迟增加
速率波动过大：检查网络稳定性或备库负载

优化建议：

调整 wal_buffers 等 WAL 相关参数
考虑使用 WAL 压缩，减少网络传输量
优化备库配置，提高 WAL 应用效率
检查网络连接，确保带宽充足

性能报告分析方法

基线比较法

方法：将当前性能指标与历史基线进行对比，识别异常变化

生产应用步骤：

在系统稳定运行期，连续收集 2-4 周性能数据建立基线
定期生成性能报告，与基线对比
重点关注偏离基线超过 20% 的指标
深入分析异常指标，定位问题根源
实施优化措施并验证效果

适用场景：

长期性能监控
渐进式性能退化识别
优化效果验证

趋势分析法

方法：分析性能指标的变化趋势，预测未来性能变化

生产应用步骤：

收集至少 3 个月的性能报告数据
绘制关键指标趋势图，如 TPS、CPU 使用率等
识别指标增长或下降模式
结合业务增长趋势，预测未来资源需求
提前制定扩容或优化计划

适用场景：

容量规划
长期性能趋势预测
资源需求评估

瓶颈分析法

方法：识别系统主要性能瓶颈，进行针对性优化

生产应用步骤：

分析性能报告，识别异常指标
确定主要瓶颈类型（CPU、内存、I/O 或锁）
深入分析瓶颈形成原因
制定针对性优化方案
实施优化并验证效果

适用场景：

急性性能问题解决
系统性能调优
新系统上线优化

关联分析法

方法：分析不同指标之间的关联关系，定位根本原因

生产应用步骤：

识别多个相关指标的异常变化
分析指标之间的因果关系
确定问题的根本原因
制定综合优化方案
全面优化相关指标

适用场景：

复杂性能问题分析
多因素影响的性能瓶颈
系统性性能优化

版本差异

V8 R6 与 V8 R7 性能报告对比

特性	V8 R6	V8 R7	运维影响
报告结构	基础结构	增强结构，包含更多指标	V8 R7 报告更全面，便于深入分析
指标数量	基本指标	新增等待事件、并行查询等指标	V8 R7 可更精准定位性能问题
可视化效果	简单文本	增强可视化，支持图表	V8 R7 报告更直观，分析效率更高
生成方式	手动或定时任务	支持 API、Web 界面等多种方式	V8 R7 更灵活，便于自动化集成
报告内容	数据库内部指标	增加系统层面指标	V8 R7 可进行端到端性能分析

V8 R7 新增关键指标

等待事件详情：更细粒度的等待事件分类和统计
并行查询统计：并行查询执行情况和资源消耗
统计信息状态：统计信息更新情况和准确性评估
索引使用详情：索引访问路径和效率分析
表空间 I/O：按表空间统计的 I/O 性能
网络状态：网络连接和传输性能指标
锁详情：锁类型和等待链分析

生产运维最佳实践

报告生成与管理

生成频率：
- 生产环境：每天生成完整报告，每小时生成关键指标报告
- 测试环境：根据需求灵活调整
报告存储：
- 建立专门的性能报告存储目录
- 保留至少 6 个月的历史报告
- 建立报告归档和检索机制
自动化集成：
- 配置自动生成和发送性能报告
- 与监控系统集成，触发异常报告
- 建立性能告警机制

指标监控重点

核心业务系统：重点关注 TPS、QPS、响应时间、复制延迟
批处理系统：重点关注 I/O 性能、CPU 使用率、作业完成时间
高并发系统：重点关注连接数、锁等待、事务响应时间

分析效率提升

建立指标优先级：根据业务重要性排序指标，优先分析关键指标
结合业务上下文：将性能变化与业务活动关联，区分正常波动和异常情况
团队协作分析：复杂问题组织 DBA、系统工程师、业务人员协同分析
积累分析经验：建立性能问题知识库，记录典型问题和解决方案

常见问题（FAQ）

性能指标的正常范围是固定的吗？

A：不是。正常范围取决于业务类型、硬件配置、数据库版本等多种因素。建议根据实际情况建立自己的性能基线，将当前指标与基线对比，而非简单参考通用范围。

如何快速建立性能基线？

A：在系统稳定运行期间，连续收集 2-4 周的性能数据，计算各项指标的平均值、最大值、最小值和标准差，作为初始基线。后续定期更新基线，反映系统变化。

指标异常一定意味着存在问题吗？

A：不一定。指标异常可能是正常业务波动或系统维护引起的。需结合业务上下文和系统活动分析，确定是否真的存在问题。

如何快速定位性能瓶颈？

A：

查看性能报告概览，识别关键异常指标
根据异常指标类型，深入分析相关模块
结合等待事件和慢查询，定位具体瓶颈
采用瓶颈分析法，制定针对性优化方案

如何处理性能报告中的慢查询？

A：

查看慢查询的详细执行信息和计划
分析慢查询原因，如缺少索引、统计信息过时等
制定优化方案，如添加索引、重写 SQL 等
实施优化并验证效果
持续监控优化后的查询性能

如何利用性能报告进行容量规划？

A：

收集至少 3 个月的性能报告数据
分析关键指标增长趋势，如 TPS、数据量等
结合业务增长预测，评估未来资源需求
制定容量规划方案，包括硬件升级、架构调整等
定期更新规划，反映实际增长情况

跨版本性能报告如何兼容分析？

A：

使用高版本的分析工具（如 V8 R7 的 kperf）分析低版本报告
关注通用核心指标，忽略版本特有指标
对于版本差异较大的报告，分别建立基线

性能报告生成对数据库性能有影响吗？

A：性能报告生成会消耗一定系统资源，但影响通常较小。建议：

避免在业务高峰期生成报告
控制报告生成频率，避免过于频繁
合理设置报告范围，只包含必要指标

总结

KingBaseES 性能报告是数据库运维的重要工具，通过准确解读和有效利用性能报告，DBA 能够全面掌握数据库运行状态，及时发现并解决性能问题。

在实际生产运维中，需注意：

建立适合自身系统的性能基线
结合业务上下文进行指标分析
采用多种分析方法，全面定位问题
关注版本差异，合理使用新特性
建立自动化报告生成和分析机制

通过持续的性能监控和优化，能够确保 KingBaseES 数据库始终保持最佳运行状态，为业务发展提供可靠的数据支撑。

KingBaseES 性能报告指标解读 ​

概述 ​

性能报告结构 ​

关键指标解读 ​

实例概览指标 ​

TPS (每秒事务数) ​

QPS (每秒查询数) ​

连接数 ​

CPU 分析指标 ​

总体 CPU 使用率 ​

用户 CPU 使用率 ​

系统 CPU 使用率 ​

内存使用指标 ​

总体内存使用率 ​

共享缓冲区使用率 ​

工作内存使用率 ​

磁盘 I/O 指标 ​

磁盘读写速率 ​

I/O 等待时间 ​

数据库活动指标 ​

事务提交率 ​

活跃事务数 ​

慢查询数量 ​

锁与等待指标 ​

锁等待次数 ​

平均锁等待时间 ​

主要等待事件 ​

复制状态指标 ​

复制延迟 ​

WAL 发送与应用速率 ​

性能报告分析方法 ​

基线比较法 ​

趋势分析法 ​

瓶颈分析法 ​

关联分析法 ​

版本差异 ​

V8 R6 与 V8 R7 性能报告对比 ​

V8 R7 新增关键指标 ​

生产运维最佳实践 ​

报告生成与管理 ​

指标监控重点 ​

分析效率提升 ​

常见问题（FAQ） ​

性能指标的正常范围是固定的吗？ ​

如何快速建立性能基线？ ​

指标异常一定意味着存在问题吗？ ​

如何快速定位性能瓶颈？ ​

如何处理性能报告中的慢查询？ ​

如何利用性能报告进行容量规划？ ​

跨版本性能报告如何兼容分析？ ​

性能报告生成对数据库性能有影响吗？ ​

总结 ​

KingBaseES 性能报告指标解读

概述

性能报告结构

关键指标解读

实例概览指标

TPS (每秒事务数)

QPS (每秒查询数)

连接数

CPU 分析指标

总体 CPU 使用率

用户 CPU 使用率

系统 CPU 使用率

内存使用指标

总体内存使用率

共享缓冲区使用率

工作内存使用率

磁盘 I/O 指标

磁盘读写速率

I/O 等待时间

数据库活动指标

事务提交率

活跃事务数

慢查询数量

锁与等待指标

锁等待次数

平均锁等待时间

主要等待事件

复制状态指标

复制延迟

WAL 发送与应用速率

性能报告分析方法

基线比较法

趋势分析法

瓶颈分析法

关联分析法

版本差异

V8 R6 与 V8 R7 性能报告对比

V8 R7 新增关键指标

生产运维最佳实践

报告生成与管理

指标监控重点

分析效率提升

常见问题（FAQ）

性能指标的正常范围是固定的吗？

如何快速建立性能基线？

指标异常一定意味着存在问题吗？

如何快速定位性能瓶颈？

如何处理性能报告中的慢查询？

如何利用性能报告进行容量规划？

跨版本性能报告如何兼容分析？

性能报告生成对数据库性能有影响吗？

总结