GaussDB 查询重写技术

查询重写的定义

查询重写是指数据库优化器在执行SQL查询前，将原始查询转换为逻辑等价但执行效率更高的形式的过程。查询重写是GaussDB查询优化的重要组成部分，可以显著提高查询性能。

查询重写的作用

提高查询性能：通过优化查询结构，减少数据扫描量和计算量
减少资源消耗：降低CPU、内存和I/O资源的使用
改善执行计划：帮助优化器生成更好的执行计划
支持复杂查询：将复杂查询转换为优化器可以处理的形式
实现高级功能：实现视图、物化视图、分区表等高级功能

基本查询重写技术

常量折叠

常量折叠是指在查询编译阶段，将可以预先计算的常量表达式替换为计算结果。

示例：

sql

-- 原始查询
SELECT * FROM t WHERE a = 1 + 2;

-- 重写后
SELECT * FROM t WHERE a = 3;

优化效果：避免了在查询执行时重复计算常量表达式，减少了CPU开销。

谓词下推

谓词下推是指将WHERE子句中的谓词尽可能地推到数据访问层，减少需要扫描的数据量。

示例：

sql

-- 原始查询
SELECT * FROM (SELECT * FROM t1 JOIN t2 ON t1.id = t2.id) WHERE t1.a > 10;

-- 重写后
SELECT * FROM (SELECT * FROM t1 WHERE t1.a > 10 JOIN t2 ON t1.id = t2.id);

优化效果：减少了JOIN操作的数据量，提高了查询性能。

连接消除

连接消除是指当连接操作不影响查询结果时，将连接操作消除，减少查询的复杂度。

示例：

sql

-- 原始查询
SELECT t1.* FROM t1 LEFT JOIN t2 ON t1.id = t2.id WHERE t2.id IS NULL;

-- 重写后（当t2.id是主键时）
SELECT t1.* FROM t1 WHERE NOT EXISTS (SELECT 1 FROM t2 WHERE t1.id = t2.id);

优化效果：将JOIN操作转换为EXISTS子查询，可能生成更高效的执行计划。

子查询重写

子查询重写是指将子查询转换为JOIN操作或其他更高效的形式。

示例：

sql

-- 原始查询
SELECT * FROM t1 WHERE id IN (SELECT id FROM t2 WHERE a > 10);

-- 重写后
SELECT t1.* FROM t1 JOIN (SELECT DISTINCT id FROM t2 WHERE a > 10) t2 ON t1.id = t2.id;

优化效果：将IN子查询转换为JOIN操作，可能利用索引提高查询性能。

高级查询重写技术

视图重写

视图重写是指将视图引用展开为对应的基表查询，然后进行优化。

示例：

sql

-- 创建视图
CREATE VIEW v AS SELECT id, name FROM t WHERE a > 10;

-- 原始查询
SELECT * FROM v WHERE id < 100;

-- 重写后
SELECT id, name FROM t WHERE a > 10 AND id < 100;

优化效果：将视图引用展开后，可以进行谓词合并和下推，提高查询性能。

物化视图重写

物化视图重写是指当查询可以通过物化视图满足时，直接使用物化视图的数据，而不是重新执行查询。

示例：

sql

-- 创建物化视图
CREATE MATERIALIZED VIEW mv AS SELECT a, COUNT(*) FROM t GROUP BY a;

-- 原始查询
SELECT a, COUNT(*) FROM t GROUP BY a;

-- 重写后（当物化视图数据新鲜时）
SELECT * FROM mv;

优化效果：直接使用物化视图的数据，避免了重新计算，显著提高了查询性能。

分区表重写

分区表重写是指根据查询条件，只访问相关的分区，而不是全表扫描。

示例：

sql

-- 原始查询（t是按时间分区的表）
SELECT * FROM t WHERE time >= '2023-01-01' AND time < '2023-02-01';

-- 重写后
SELECT * FROM t PARTITION (p202301) WHERE time >= '2023-01-01' AND time < '2023-02-01';

优化效果：只扫描相关分区，减少了数据扫描量，提高了查询性能。

CTE重写

CTE（Common Table Expression）重写是指对WITH子句中的CTE进行优化，包括物化CTE或内联CTE。

示例：

sql

-- 原始查询
WITH cte AS (SELECT * FROM t WHERE a > 10) SELECT * FROM cte WHERE b < 20;

-- 重写后（内联CTE）
SELECT * FROM t WHERE a > 10 AND b < 20;

优化效果：内联CTE后，可以进行谓词合并和优化，提高查询性能。

查询重写的实现机制

规则系统

GaussDB的规则系统允许用户定义自定义的查询重写规则。

示例：

sql

-- 创建重写规则
CREATE RULE rewrite_rule AS ON SELECT TO v WHERE new.id < 100 DO INSTEAD SELECT id, name FROM t WHERE a > 10 AND id < 100;

优化器重写

GaussDB的查询优化器内置了多种查询重写规则，在查询编译阶段自动应用。

主要重写规则：

常量折叠和传播
谓词下推和合并
连接顺序优化
子查询重写
视图展开
分区裁剪

执行计划缓存

GaussDB会缓存优化后的执行计划，避免重复进行查询重写和优化。

配置示例：

sql

ALTER SYSTEM SET plan_cache_mode = auto;
ALTER SYSTEM SET plan_cache_size = 1000;

查询重写的监控与调优

查看查询重写情况

可以通过EXPLAIN命令查看查询重写后的执行计划。

示例：

sql

EXPLAIN VERBOSE SELECT * FROM v WHERE id < 100;

监控重写性能

使用pg_stat_statements视图监控查询重写的性能效果。

示例：

sql

SELECT 
  query,
  calls,
  total_time,
  mean_time,
  rows
FROM pg_stat_statements 
ORDER BY total_time DESC 
LIMIT 10;

调优重写参数

GaussDB提供了多个参数用于控制查询重写行为。

enable_rewrite

控制是否启用查询重写。

默认值：on

配置示例：

sql

ALTER SYSTEM SET enable_rewrite = on;

enable_material

控制是否启用CTE物化。

默认值：on

配置示例：

sql

ALTER SYSTEM SET enable_material = on;

enable_partition_pruning

控制是否启用分区裁剪。

默认值：on

配置示例：

sql

ALTER SYSTEM SET enable_partition_pruning = on;

查询重写的最佳实践

合理使用视图

避免复杂视图：复杂视图可能导致查询重写困难
使用物化视图：对于频繁访问的复杂查询，使用物化视图提高性能
避免嵌套视图：嵌套视图会增加查询重写的复杂度
为视图添加注释：说明视图的用途和使用注意事项

优化子查询

避免相关子查询：相关子查询性能较差，尽量转换为JOIN操作
使用EXISTS代替IN：对于大表，EXISTS通常比IN更高效
使用LIMIT限制子查询结果：减少子查询返回的数据量
为子查询添加合适的索引：提高子查询的执行效率

优化JOIN操作

选择合适的JOIN顺序：将小表放在JOIN的左侧
使用合适的JOIN类型：根据业务需求选择INNER JOIN、LEFT JOIN等
避免笛卡尔积：确保JOIN条件正确，避免产生笛卡尔积
为JOIN列添加索引：提高JOIN操作的执行效率

优化WHERE子句

将过滤条件放在WHERE子句中：便于谓词下推
避免在列上使用函数：会导致索引失效
使用绑定变量：提高执行计划缓存的命中率
避免使用OR条件：可以考虑使用UNION代替

查询重写的常见问题

重写后的查询性能下降

原因：

优化器选择了不合适的重写规则
统计信息不准确
索引设计不合理
重写规则与实际数据分布不匹配

处理方法：

查看执行计划：分析重写后的执行计划
收集统计信息：使用ANALYZE命令更新统计信息
调整重写参数：禁用特定的重写规则
优化查询语句：修改原始查询，引导优化器进行更好的重写

重写规则冲突

原因：

多个重写规则同时应用，导致冲突
自定义规则与系统规则冲突
规则优先级设置不合理

处理方法：

检查重写规则：查看所有适用的重写规则
调整规则优先级：修改规则的优先级
禁用冲突规则：禁用导致冲突的规则
简化查询：简化查询语句，减少重写规则的应用

重写导致结果不一致

原因：

重写规则存在逻辑错误
自定义规则不符合逻辑等价性
数据类型转换导致精度丢失
NULL值处理不当

处理方法：

验证结果一致性：对比重写前后的查询结果
检查重写规则：检查重写规则的逻辑正确性
测试边界情况：测试NULL值、极值等边界情况
使用显式转换：对于数据类型转换，使用显式转换函数

常见问题（FAQ）

Q1: 查询重写和查询优化有什么区别？

A1: 查询重写和查询优化的区别：

查询重写：将原始查询转换为逻辑等价但执行效率更高的形式，是查询优化的一部分
查询优化：包括查询重写、执行计划生成和执行计划选择等多个阶段
关系：查询重写是查询优化的前置阶段，为后续的执行计划生成提供优化后的查询

Q2: 如何查看查询是否被重写？

A2: 查看查询是否被重写的方法：

使用EXPLAIN VERBOSE命令：可以看到重写后的查询
使用EXPLAIN ANALYZE命令：可以看到实际执行的查询计划
查看数据库日志：启用查询重写日志，记录重写过程
使用系统视图：通过pg_stat_statements视图查看优化前后的查询

Q3: 如何强制禁用特定的重写规则？

A3: 强制禁用特定重写规则的方法：

使用SET命令临时禁用：`SET enable_rewrite = off;
在查询中使用提示（hint）：`/*+ NO_REWRITE */ SELECT * FROM v;
修改系统参数：`ALTER SYSTEM SET enable_rewrite = off;
禁用特定规则：对于自定义规则，可以禁用特定的规则

Q4: 为什么有时候查询重写会导致性能下降？

A4: 查询重写导致性能下降的原因：

优化器选择了不合适的重写规则
统计信息不准确，导致优化器做出错误的决策
重写后的查询无法有效利用索引
重写增加了查询的复杂度
实际数据分布与优化器假设不符

Q5: 如何优化复杂查询的重写？

A5: 优化复杂查询重写的方法：

简化查询结构：将复杂查询拆分为多个简单查询
使用物化视图：将频繁访问的复杂查询结果物化
收集准确的统计信息：确保优化器有准确的数据分布信息
为查询添加提示：引导优化器进行更好的重写
调整重写参数：根据实际情况调整重写相关参数

Q6: 物化视图和普通视图的重写有什么区别？

A6: 物化视图和普通视图重写的区别：

普通视图：每次查询时都会展开为基表查询，然后进行重写和优化
物化视图：查询时直接使用物化视图的数据，避免了重复计算
更新机制：普通视图数据实时更新，物化视图需要手动或自动刷新
性能：物化视图查询性能更好，但维护成本更高

Q7: 如何选择合适的查询重写策略？

A7: 选择合适查询重写策略的方法：

根据查询类型：不同类型的查询适合不同的重写策略
根据数据分布：根据实际数据分布选择重写策略
根据业务需求：考虑查询的响应时间要求和资源消耗
根据系统配置：考虑系统的硬件配置和参数设置
进行性能测试：通过测试比较不同重写策略的性能

Q8: 查询重写对应用程序有什么影响？

A8: 查询重写对应用程序的影响：

性能提升：查询重写可以显著提高查询性能
透明性：查询重写对应用程序是透明的，不需要修改应用代码
计划缓存：重写后的执行计划会被缓存，提高后续查询的性能
行为一致性：重写后的查询结果与原始查询结果完全一致
调试难度：重写后的查询可能更复杂，增加了调试难度

查询重写案例分析

案例1：视图重写优化

问题描述：一个复杂视图的查询性能较差，执行时间超过10秒。

处理过程：

分析视图定义：查看视图的定义，发现视图包含多个JOIN和子查询
查看执行计划：使用EXPLAIN命令查看重写后的执行计划，发现没有进行有效的谓词下推
优化视图定义：简化视图定义，减少JOIN和子查询的数量
添加索引：为视图中的关键列添加索引
使用物化视图：将视图转换为物化视图，定期刷新
验证效果：查询时间从10秒减少到0.1秒

优化效果：

查询性能提升了100倍
资源消耗显著降低
应用程序响应时间大大缩短

案例2：子查询重写优化

问题描述：一个包含IN子查询的查询执行缓慢，需要5秒才能完成。

处理过程：

分析查询语句：原始查询包含一个IN子查询，子查询返回大量数据
查看执行计划：发现子查询被转换为嵌套循环JOIN，效率较低
重写查询：将IN子查询转换为EXISTS子查询
添加索引：为子查询中的连接列添加索引
验证效果：查询时间从5秒减少到0.5秒

优化效果：

查询性能提升了10倍
减少了内存和CPU的使用
执行计划更高效

案例3：分区表重写优化

问题描述：一个分区表的查询没有进行分区裁剪，导致全表扫描，执行时间较长。

处理过程：

分析查询语句：查询条件包含分区键，但没有进行分区裁剪
检查分区表定义：确认分区表定义正确
收集统计信息：使用ANALYZE命令更新统计信息
调整参数：确保enable_partition_pruning参数为on
验证效果：查询只扫描了相关分区，执行时间从10秒减少到1秒

优化效果：

查询性能提升了10倍
减少了I/O资源的使用
执行计划更高效

GaussDB 查询重写技术 ​

查询重写的定义 ​

查询重写的作用 ​

基本查询重写技术 ​

常量折叠 ​

谓词下推 ​

连接消除 ​

子查询重写 ​

高级查询重写技术 ​

视图重写 ​

物化视图重写 ​

分区表重写 ​

CTE重写 ​

查询重写的实现机制 ​

规则系统 ​

优化器重写 ​

执行计划缓存 ​

查询重写的监控与调优 ​

查看查询重写情况 ​

监控重写性能 ​

调优重写参数 ​

enable_rewrite ​

enable_material ​

enable_partition_pruning ​

查询重写的最佳实践 ​

合理使用视图 ​

优化子查询 ​

优化JOIN操作 ​

优化WHERE子句 ​

查询重写的常见问题 ​

重写后的查询性能下降 ​

重写规则冲突 ​

重写导致结果不一致 ​

常见问题（FAQ） ​

Q1: 查询重写和查询优化有什么区别？ ​

Q2: 如何查看查询是否被重写？ ​

Q3: 如何强制禁用特定的重写规则？ ​

Q4: 为什么有时候查询重写会导致性能下降？ ​

Q5: 如何优化复杂查询的重写？ ​

Q6: 物化视图和普通视图的重写有什么区别？ ​

Q7: 如何选择合适的查询重写策略？ ​

Q8: 查询重写对应用程序有什么影响？ ​

查询重写案例分析 ​

案例1：视图重写优化 ​

案例2：子查询重写优化 ​

案例3：分区表重写优化 ​

GaussDB 查询重写技术

查询重写的定义

查询重写的作用

基本查询重写技术

常量折叠

谓词下推

连接消除

子查询重写

高级查询重写技术

视图重写

物化视图重写

分区表重写

CTE重写

查询重写的实现机制

规则系统

优化器重写

执行计划缓存

查询重写的监控与调优

查看查询重写情况

监控重写性能

调优重写参数

enable_rewrite

enable_material

enable_partition_pruning

查询重写的最佳实践

合理使用视图

优化子查询

优化JOIN操作

优化WHERE子句

查询重写的常见问题

重写后的查询性能下降

重写规则冲突

重写导致结果不一致

常见问题（FAQ）

Q1: 查询重写和查询优化有什么区别？

Q2: 如何查看查询是否被重写？

Q3: 如何强制禁用特定的重写规则？

Q4: 为什么有时候查询重写会导致性能下降？

Q5: 如何优化复杂查询的重写？

Q6: 物化视图和普通视图的重写有什么区别？

Q7: 如何选择合适的查询重写策略？

Q8: 查询重写对应用程序有什么影响？

查询重写案例分析

案例1：视图重写优化

案例2：子查询重写优化

案例3：分区表重写优化