PostgreSQL开发架构

引言

理解PostgreSQL的架构设计是进行高效开发和优化的基础。PostgreSQL采用了模块化的架构设计，包括进程模型、内存管理、存储管理、查询处理等核心组件。本文将详细介绍PostgreSQL的架构设计，帮助开发者深入理解其内部工作原理，从而更好地进行数据库设计、优化和管理。

整体架构概述

PostgreSQL是一个客户端-服务器架构的数据库系统，主要由以下核心组件组成：

客户端层：负责与用户交互，发送SQL请求并接收结果
连接管理层：处理客户端连接、认证和会话管理
查询处理层：解析、分析、优化和执行SQL查询
事务管理层：确保ACID特性，处理并发控制
存储引擎层：管理数据存储和检索
复制管理层：处理数据复制和高可用性
扩展层：支持自定义扩展和插件

进程模型

PostgreSQL采用多进程架构，主要包括以下类型的进程：

1. 主进程(Postmaster)

主进程是PostgreSQL的核心控制进程，负责：

监听客户端连接请求
启动和管理后端进程
管理数据库文件
处理信号和中断
启动和管理辅助进程
处理数据库启动和关闭

2. 后端进程(Backend Process)

每个客户端连接对应一个后端进程，负责：

处理客户端的SQL请求
执行查询计划
管理数据缓存
处理事务
返回查询结果给客户端

3. 辅助进程

PostgreSQL包含多个辅助进程，负责各种后台任务：

WAL写入进程(Walwriter)

将WAL缓冲区的数据写入磁盘
定期执行，减少事务提交时的写入延迟

检查点进程(Checkpointer)

定期执行检查点操作
将脏数据从共享缓冲区写入磁盘
更新检查点记录

自动清理进程(Autovacuum Launcher)

管理自动VACUUM工作进程
监控表的更新情况
决定何时对表进行VACUUM和ANALYZE

自动清理工作进程(Autovacuum Worker)

执行VACUUM操作，清理过期行版本
执行ANALYZE操作，更新表统计信息

统计收集进程(Stats Collector)

收集数据库活动的统计信息
为查询优化器提供统计数据
支持pg_stat_*视图

日志收集进程(Syslogger)

收集所有PostgreSQL进程的日志
将日志写入指定的日志文件
支持日志轮换和归档

复制进程

Walsender：在主服务器上，发送WAL日志到从服务器
Walreceiver：在从服务器上，接收并写入WAL日志

内存结构

PostgreSQL的内存结构分为共享内存和本地内存两部分：

1. 共享内存

所有PostgreSQL进程共享的内存区域，主要包括：

共享缓冲区(Shared Buffers)

缓存从磁盘读取的数据块
大小由shared_buffers参数控制
建议设置为系统内存的25%

WAL缓冲区(WAL Buffers)

缓存WAL日志记录
大小由wal_buffers参数控制
建议设置为16MB或更大

提交日志缓冲区(Commit Log Buffer)

缓存事务提交状态
对应磁盘上的pg_clog目录

进程间通信区域(IPC)

用于进程间通信
包含锁表、信号量等

统计信息区域

存储数据库活动的统计信息
支持pg_stat_*视图

2. 本地内存

每个后端进程私有的内存区域，主要包括：

工作内存(Work Mem)

用于排序、哈希连接等操作
大小由work_mem参数控制
每个操作可能使用多个工作内存块

维护工作内存(Maintenance Work Mem)

用于VACUUM、CREATE INDEX等维护操作
大小由maintenance_work_mem参数控制

临时内存

用于存储临时表和结果集
大小由temp_buffers参数控制

计划缓存(Plan Cache)

缓存查询计划
避免重复生成相同的查询计划
由plan_cache_mode参数控制

会话内存

存储会话相关的状态信息
如当前事务状态、搜索路径等

存储结构

PostgreSQL的存储结构采用层次化设计，主要包括：

1. 表空间(Tablespace)

表空间是数据库对象的存储位置
对应文件系统中的一个目录
允许将不同的数据库对象存储在不同的磁盘设备上
支持表空间级别的权限管理

sql

-- 创建表空间
CREATE TABLESPACE fast_ssd LOCATION '/mnt/ssd/postgresql';

-- 在表空间上创建表
CREATE TABLE large_table (
    id serial PRIMARY KEY,
    data text
) TABLESPACE fast_ssd;

2. 数据库(Database)

每个数据库对应表空间中的一个目录
包含数据库的系统表和用户表
数据库之间相互隔离

3. 模式(Schema)

模式是数据库内的命名空间
用于组织和管理表、视图等对象
一个数据库可以包含多个模式

4. 数据库文件

每个表和索引对应一个或多个文件
文件命名为relfilenode编号
默认文件大小限制为1GB
超过限制时会创建多个文件，后缀为.1, .2等

5. 数据块(Block)

数据库的基本存储单元
默认大小为8KB（可在编译时修改）
包含数据行、元数据和空闲空间
使用B-tree结构组织数据

6. 数据行(Row)

数据行存储在数据块中
包含实际数据和系统列：
- xmin：创建该行的事务ID
- xmax：删除或更新该行的事务ID
- ctid：行在数据块中的物理位置
- cmin：命令ID，同一事务内的命令顺序
- cmax：命令ID，同一事务内的命令顺序

查询处理流程

PostgreSQL处理SQL查询的完整流程包括以下阶段：

1. 连接建立

客户端通过TCP/IP或Unix套接字连接到PostgreSQL服务器
主进程接收连接请求，启动后端进程
进行身份验证

2. 查询解析(Parse)

将SQL文本解析为解析树
检查语法错误
生成查询树(Query Tree)

3. 查询分析(Analyze)

检查语义错误
解析表名、列名、函数名等
进行类型检查和转换
生成查询树(Query Tree)

4. 查询重写(Rewrite)

根据规则系统重写查询
展开视图
应用规则和触发器
生成查询树(Rewritten Query Tree)

5. 查询优化(Optimize)

生成多个可能的执行计划
估算每个计划的成本
选择成本最低的执行计划
生成计划树(Plan Tree)

6. 查询执行(Execute)

执行选定的执行计划
从存储引擎读取数据
执行过滤、连接、排序等操作
生成结果集

7. 结果返回

将结果集返回给客户端
处理游标和批量返回
维护连接状态

复制架构

PostgreSQL支持多种复制方式，用于实现高可用性和负载均衡：

1. 流复制(Streaming Replication)

基于WAL日志的物理复制
主服务器将WAL日志实时发送到从服务器
从服务器重放WAL日志，保持数据一致
支持同步复制和异步复制
从服务器可以作为只读服务器

配置流复制

主服务器配置：

bash

# postgresql.conf
wal_level = replica
max_wal_senders = 10
max_replication_slots = 10

# pg_hba.conf
host replication replicator 192.168.1.0/24 md5

从服务器配置：

bash

# 初始化从服务器
pg_basebackup -h master_host -U replicator -D /data/postgresql -P -v -R

# 启动从服务器
pg_ctl -D /data/postgresql start

2. 逻辑复制

基于逻辑日志的复制
可以复制特定表或数据库
支持跨版本复制
支持不同PostgreSQL实例间的数据同步
允许从服务器进行写操作

配置逻辑复制

主服务器配置：

bash

# postgresql.conf
wal_level = logical
max_replication_slots = 10
max_wal_senders = 10

# 创建发布
CREATE PUBLICATION my_publication FOR TABLE users, orders;

从服务器配置：

bash

# 创建订阅
CREATE SUBSCRIPTION my_subscription
    CONNECTION 'host=master_host dbname=mydb user=replicator password=secret'
    PUBLICATION my_publication;

3. 级联复制

从服务器可以作为其他从服务器的主服务器
减少主服务器的负载
适合大规模复制拓扑

4. 同步复制

主服务器等待从服务器确认接收WAL日志后才提交事务
提供更高的数据安全性
可能增加主服务器的延迟

事务管理架构

PostgreSQL的事务管理架构确保了ACID特性：

1. MVCC(多版本并发控制)

每个事务看到的数据是事务开始时的快照
写操作不会覆盖旧数据，而是创建新的数据版本
旧数据版本由VACUUM进程清理
提供了良好的并发性能

2. 预写式日志(WAL)

所有数据修改操作首先写入WAL日志
然后再写入数据文件
确保数据持久性和一致性
支持崩溃恢复和复制

3. 两阶段提交(2PC)

支持分布式事务
分为准备阶段和提交阶段
确保分布式环境下的事务一致性

4. 事务隔离级别

支持四种隔离级别：读未提交、读已提交、可重复读、可串行化
默认为读已提交
不同隔离级别提供不同的并发控制效果

安全架构

PostgreSQL的安全架构包括多个层次：

1. 认证(Authentication)

支持多种认证方式：密码认证、MD5认证、SSL认证、LDAP认证、Kerberos认证等
配置文件：pg_hba.conf
可以针对不同主机和用户配置不同的认证方式

2. 授权(Authorization)

基于角色的访问控制(RBAC)
支持细粒度的权限管理
可以授予权限到表、列、函数等级别
支持继承权限

3. 加密(Encryption)

支持SSL/TLS连接加密
支持数据存储加密
支持列级加密
支持密码哈希存储

4. 审计(Auditing)

支持日志审计
可以记录所有数据库活动
支持扩展如pgAudit提供更详细的审计功能

扩展性架构

PostgreSQL具有强大的扩展性，支持多种扩展方式：

1. 扩展模块(Extensions)

支持安装和卸载扩展模块
扩展可以添加新功能、数据类型、索引方法等
官方扩展如PostGIS、pg_stat_statements、uuid-ossp等
第三方扩展如TimescaleDB、Citus等

2. 自定义数据类型

可以创建自定义标量类型、复合类型、枚举类型等
支持自定义操作符和函数

3. 自定义索引方法

可以实现自定义索引访问方法
内置支持B-tree、Hash、GiST、GIN、SP-GiST、BRIN等索引类型

4. 自定义函数和存储过程

支持多种语言编写函数：SQL、PL/pgSQL、Python、Perl、Java等
支持存储过程和触发器

版本差异

PostgreSQL 12

改进了B-tree索引压缩
增强了分区表性能
支持SQL/JSON路径表达式

PostgreSQL 13

增强了逻辑复制功能
改进了真空处理
支持增量排序
改进了查询计划器

PostgreSQL 14

支持并行化VACUUM
增强了JSONB处理
改进了连接管理
支持增量备份

PostgreSQL 15

支持MERGE语句
增强了安全功能
改进了分区表管理
支持并行化CREATE INDEX

PostgreSQL 16

新增向量数据类型
增强了并行查询执行
改进了索引维护
支持更高效的连接池

常见问题（FAQ）

1. PostgreSQL的多进程架构与其他数据库的多线程架构有什么区别？

PostgreSQL采用多进程架构，每个客户端连接对应一个进程，而其他数据库（如MySQL的InnoDB）采用多线程架构。多进程架构的优势包括：

更好的隔离性，一个进程崩溃不会影响其他进程
简化了内存管理，每个进程有独立的内存空间
更好的稳定性，减少了共享内存竞争
便于调试和分析

2. 如何优化PostgreSQL的内存配置？

优化PostgreSQL内存配置的方法包括：

调整shared_buffers：建议设置为系统内存的25%
调整work_mem：根据查询复杂度和并发数调整
调整maintenance_work_mem：用于VACUUM和CREATE INDEX等操作
调整effective_cache_size：告诉查询优化器可用的缓存大小
调整wal_buffers：建议设置为16MB或更大

3. 如何选择合适的复制方式？

选择复制方式取决于具体需求：

对于高可用性，建议使用流复制
对于跨版本复制或选择性复制，建议使用逻辑复制
对于大规模部署，建议使用级联复制
对于需要最高数据安全性，建议使用同步复制
对于需要低延迟，建议使用异步复制

4. 什么是WAL级别，如何选择？

WAL级别控制WAL日志的详细程度：

minimal：最小日志，不支持复制
replica：支持流复制和归档
logical：支持逻辑复制

选择建议：

对于单机部署，使用minimal
对于流复制，使用replica
对于逻辑复制，使用logical

5. 如何监控PostgreSQL的性能？

监控PostgreSQL性能的方法包括：

使用内置视图：pg_stat_activity、pg_stat_statements、pg_stat_database等
使用扩展：pg_stat_statements、pg_stat_kcache等
使用第三方工具：Prometheus + Grafana、Zabbix、Datadog等
分析日志文件
使用EXPLAIN ANALYZE分析查询计划

最佳实践

合理配置内存：根据服务器硬件资源调整内存参数
使用连接池：减少连接建立的开销，提高并发性能
定期进行VACUUM和ANALYZE：保持数据库健康，更新统计信息
合理设计索引：根据查询模式设计合适的索引
使用分区表：对于大型表，使用分区表提高查询性能
配置合适的WAL级别：根据复制需求选择合适的WAL级别
使用复制实现高可用性：配置流复制或逻辑复制
监控数据库性能：定期检查性能指标，及时发现问题
保持软件更新：定期更新PostgreSQL到最新稳定版本
使用扩展增强功能：根据需求安装合适的扩展模块

总结

PostgreSQL的架构设计具有模块化、可扩展、可靠稳定等特点，能够满足从简单应用到复杂企业级系统的各种需求。理解PostgreSQL的架构设计对于进行高效开发、优化和管理至关重要。

通过合理配置和优化PostgreSQL的各个组件，可以充分发挥其性能优势，构建高性能、高可用、可靠的数据库系统。随着PostgreSQL的不断发展，其架构也在不断演进，引入新的功能和改进，进一步增强其在各种应用场景中的表现。

PostgreSQL开发架构 ​

引言 ​

整体架构概述 ​

进程模型 ​

1. 主进程(Postmaster) ​

2. 后端进程(Backend Process) ​

3. 辅助进程 ​

WAL写入进程(Walwriter) ​

检查点进程(Checkpointer) ​

自动清理进程(Autovacuum Launcher) ​

自动清理工作进程(Autovacuum Worker) ​

统计收集进程(Stats Collector) ​

日志收集进程(Syslogger) ​

复制进程 ​

内存结构 ​

1. 共享内存 ​

共享缓冲区(Shared Buffers) ​

WAL缓冲区(WAL Buffers) ​

提交日志缓冲区(Commit Log Buffer) ​

进程间通信区域(IPC) ​

统计信息区域 ​

2. 本地内存 ​

工作内存(Work Mem) ​

维护工作内存(Maintenance Work Mem) ​

临时内存 ​

计划缓存(Plan Cache) ​

会话内存 ​

存储结构 ​

1. 表空间(Tablespace) ​

2. 数据库(Database) ​

3. 模式(Schema) ​

4. 数据库文件 ​

5. 数据块(Block) ​

6. 数据行(Row) ​

查询处理流程 ​

1. 连接建立 ​

2. 查询解析(Parse) ​

3. 查询分析(Analyze) ​

4. 查询重写(Rewrite) ​

5. 查询优化(Optimize) ​

6. 查询执行(Execute) ​

7. 结果返回 ​

复制架构 ​

1. 流复制(Streaming Replication) ​

配置流复制 ​

2. 逻辑复制 ​

配置逻辑复制 ​

3. 级联复制 ​

4. 同步复制 ​

事务管理架构 ​

1. MVCC(多版本并发控制) ​

2. 预写式日志(WAL) ​

3. 两阶段提交(2PC) ​

4. 事务隔离级别 ​

安全架构 ​

1. 认证(Authentication) ​

2. 授权(Authorization) ​

3. 加密(Encryption) ​

4. 审计(Auditing) ​

扩展性架构 ​

1. 扩展模块(Extensions) ​

2. 自定义数据类型 ​

3. 自定义索引方法 ​

4. 自定义函数和存储过程 ​

版本差异 ​

PostgreSQL 12 ​

PostgreSQL 13 ​

PostgreSQL 14 ​

PostgreSQL 15 ​

PostgreSQL 16 ​

常见问题（FAQ） ​

1. PostgreSQL的多进程架构与其他数据库的多线程架构有什么区别？ ​

2. 如何优化PostgreSQL的内存配置？ ​

3. 如何选择合适的复制方式？ ​

4. 什么是WAL级别，如何选择？ ​

5. 如何监控PostgreSQL的性能？ ​

最佳实践 ​

总结 ​

PostgreSQL开发架构

引言

整体架构概述

进程模型

1. 主进程(Postmaster)

2. 后端进程(Backend Process)

3. 辅助进程

WAL写入进程(Walwriter)

检查点进程(Checkpointer)

自动清理进程(Autovacuum Launcher)

自动清理工作进程(Autovacuum Worker)

统计收集进程(Stats Collector)

日志收集进程(Syslogger)

复制进程

内存结构

1. 共享内存

共享缓冲区(Shared Buffers)

WAL缓冲区(WAL Buffers)

提交日志缓冲区(Commit Log Buffer)

进程间通信区域(IPC)

统计信息区域

2. 本地内存

工作内存(Work Mem)

维护工作内存(Maintenance Work Mem)

临时内存

计划缓存(Plan Cache)

会话内存

存储结构

1. 表空间(Tablespace)

2. 数据库(Database)

3. 模式(Schema)

4. 数据库文件

5. 数据块(Block)

6. 数据行(Row)

查询处理流程

1. 连接建立

2. 查询解析(Parse)

3. 查询分析(Analyze)

4. 查询重写(Rewrite)

5. 查询优化(Optimize)

6. 查询执行(Execute)

7. 结果返回

复制架构

1. 流复制(Streaming Replication)

配置流复制

2. 逻辑复制

配置逻辑复制

3. 级联复制

4. 同步复制

事务管理架构

1. MVCC(多版本并发控制)

2. 预写式日志(WAL)

3. 两阶段提交(2PC)

4. 事务隔离级别

安全架构

1. 认证(Authentication)

2. 授权(Authorization)

3. 加密(Encryption)

4. 审计(Auditing)

扩展性架构

1. 扩展模块(Extensions)

2. 自定义数据类型

3. 自定义索引方法

4. 自定义函数和存储过程

版本差异

PostgreSQL 12

PostgreSQL 13

PostgreSQL 14

PostgreSQL 15

PostgreSQL 16

常见问题（FAQ）

1. PostgreSQL的多进程架构与其他数据库的多线程架构有什么区别？

2. 如何优化PostgreSQL的内存配置？

3. 如何选择合适的复制方式？

4. 什么是WAL级别，如何选择？

5. 如何监控PostgreSQL的性能？

最佳实践

总结