PostgreSQL 索引类型选择

B-tree 索引

B-tree 是 PostgreSQL 默认的索引类型，也是最常用的索引类型。它使用平衡树结构，支持等值查询、范围查询、前缀匹配，以及 MIN、MAX 聚合操作。B-tree 索引维护一个有序的数据结构，每个节点包含多个键值对和指向子节点的指针。B-tree 索引适用于大多数数据类型，包括数值、字符串、日期时间等。

B-tree 索引的查询效率通常为 O(log n)，对于等值查询和范围查询表现优异。它特别适合于低基数到中等基数的数据列，以及经常用于排序和分组的列。B-tree 索引支持多种操作符，如 =、<、>、<=、>=、BETWEEN、LIKE（前缀匹配）等。

sql

-- 创建 B-tree 索引
CREATE INDEX idx_users_id ON users (id);

-- 创建复合 B-tree 索引
CREATE INDEX idx_orders_user_date ON orders (user_id, order_date);

-- 创建前缀索引
CREATE INDEX idx_users_email_prefix ON users (email varchar_pattern_ops);

Hash 索引

Hash 索引使用哈希表实现，对于等值查询的理论复杂度为 O(1)。Hash 索引将键值通过哈希函数转换为固定长度的哈希值，然后存储在哈希表中。当查询时，同样的哈希函数被用于计算查询键值的哈希值，然后在哈希表中查找。

Hash 索引有以下限制：不支持范围查询、不支持前缀匹配、不支持排序操作、不支持 NULL 值查询。此外，Hash 索引在 PostgreSQL 10 之前不支持 WAL 归档，导致在崩溃恢复后需要重新构建索引。虽然 Hash 索引在理论上对等值查询更快，但在实际应用中，B-tree 索引的表现通常已经足够好，且具有更广泛的适用性。

sql

-- 创建 Hash 索引
CREATE INDEX idx_users_email_hash ON users USING hash (email);

-- 只能用于等值查询
SELECT * FROM users WHERE email = 'test@example.com';

-- 不支持范围查询，不会使用索引
SELECT * FROM users WHERE email > 'a' AND email < 'z';

GiST 索引

GiST（Generalized Search Tree）是一种灵活的索引框架，适用于复杂数据类型和自定义搜索操作。GiST 索引常用于几何数据类型（point、line、polygon、circle 等）的空间查询，全文搜索（tsvector 类型）的文本搜索，以及范围类型的范围查询。

GiST 索引支持多种操作符，如重叠（&&）、相交（<@）、包含（@>）、被包含（<@）等。GiST 索引的设计使其能够高效处理多维数据和复杂的数据类型，适合于需要进行高级空间查询或文本搜索的场景。

sql

-- 创建 GiST 索引用于空间查询
CREATE INDEX idx_locations_gist ON locations USING gist (location);

-- 使用 GiST 索引进行空间查询
SELECT * FROM locations WHERE location @> 'POINT(10 20)'::point;

-- 创建 GiST 索引用于全文搜索
CREATE INDEX idx_articles_gist ON articles USING gist (to_tsvector('english', content));

-- 使用 GiST 索引进行全文搜索
SELECT * FROM articles WHERE to_tsvector('english', content) @@ to_tsquery('english', 'database');

SP-GiST 索引

SP-GiST（Space-Partitioned GiST）是一种空间分区索引，适用于数据在空间中分布不均匀的场景。SP-GiST 索引常用于 IP 地址、几何点、KD 树、Quad 树等数据结构。SP-GiST 索引将空间划分为多个子空间，每个子空间包含一部分数据。

SP-GiST 索引在处理稀疏分布数据时可能比 GiST 索引更高效，因为它的分区策略更适合不均匀分布的数据。SP-GiST 索引支持的操作符与 GiST 索引类似，包括等值查询、范围查询、前缀查询等。

sql

-- 创建 SP-GiST 索引用于 IP 地址
CREATE INDEX idx_ips_spgist ON ip_addresses USING spgist (ip_address inet_ops);

-- 创建 SP-GiST 索引用于几何点
CREATE INDEX idx_points_spgist ON points USING spgist (location);

-- 使用 SP-GiST 索引进行查询
SELECT * FROM ip_addresses WHERE ip_address <<= '192.168.1.0/24';

GIN 索引

GIN（Generalized Inverted Index）是一种倒排索引，适用于包含多个值的列，如数组、JSONB、tsvector 等。GIN 索引为每个键值维护一个 posting list，记录包含该键值的行。当查询包含多个键值时，GIN 索引可以快速找到同时满足条件的行。

GIN 索引在处理多值数据类型时表现优异，特别适合于全文搜索和 JSONB 数据的查询。GIN 索引的写操作代价较高，因为每次修改可能需要更新多个键值的 posting list。对于更新频繁的表，需要评估 GIN 索引的维护成本。

sql

-- 创建 GIN 索引用于数组
CREATE INDEX idx_users_tags_gin ON users USING gin (tags);

-- 使用 GIN 索引查询数组
SELECT * FROM users WHERE tags @> ARRAY['admin', 'developer'];

-- 创建 GIN 索引用于 JSONB
CREATE INDEX idx_products_attributes_gin ON products USING gin (attributes);

-- 使用 GIN 索引查询 JSONB
SELECT * FROM products WHERE attributes @> '{"color": "red", "size": "M"}'::jsonb;

-- 创建 GIN 索引用于全文搜索
CREATE INDEX idx_articles_content_gin ON articles USING gin (to_tsvector('english', content));

BRIN 索引

BRIN（Block Range Index）是一种块范围索引，适用于大表中具有物理顺序相关性的列。BRIN 索引将表分为多个块范围（Block Range），为每个块范围存储最小值和最大值。当查询时，BRIN 索引可以快速排除不包含目标值的块范围，从而减少需要扫描的数据量。

BRIN 索引的体积非常小，通常只有表的千分之一甚至更小。BRIN 索引适用于时间序列数据、日志表等按时间顺序插入的数据，也适用于顺序分配的主键列。BRIN 索引不支持点查询，但对于范围查询和聚合查询非常有效。

sql

-- 创建 BRIN 索引用于时间序列数据
CREATE INDEX idx_logs_time_brin ON logs USING brin (log_time) WITH (pages_per_range = 128);

-- 创建 BRIN 索引用于顺序主键
CREATE INDEX idx_events_id_brin ON events USING brin (id);

-- 使用 BRIN 索引进行范围查询
SELECT * FROM logs WHERE log_time BETWEEN '2024-01-01' AND '2024-01-31';

索引类型选择指南

选择合适的索引类型需要考虑多个因素，包括数据类型、查询模式、数据分布、更新频率等。以下是一些索引类型选择的指南：

B-tree 索引：默认选择，适用于大多数场景，包括等值查询、范围查询、排序和分组操作。
Hash 索引：仅适用于简单的等值查询，且数据分布均匀的场景。
GiST 索引：适用于复杂数据类型，如空间数据、全文搜索、范围类型等。
SP-GiST 索引：适用于空间分布不均匀的数据，如 IP 地址、几何点等。
GIN 索引：适用于多值数据类型，如数组、JSONB、全文搜索等。
BRIN 索引：适用于大表中具有物理顺序相关性的列，如时间序列数据、顺序主键等。

在实际应用中，可能需要结合多种索引类型，或者创建复合索引来优化查询性能。建议根据实际的查询模式和数据特征，通过测试和分析来选择最佳的索引类型。

常见问题（FAQ）

Q1: B-tree 索引和 Hash 索引有什么区别？

A1: B-tree 索引支持等值查询、范围查询、前缀匹配和排序操作，适用于大多数场景。Hash 索引仅支持等值查询，查询复杂度为 O(1)，但不支持范围查询和排序。Hash 索引在 PostgreSQL 10 之前不支持 WAL 归档，崩溃恢复后需要重新构建。在大多数情况下，B-tree 索引已经足够高效，且具有更广泛的适用性。

Q2: 什么时候应该使用 GIN 索引？

A2: GIN 索引适用于包含多个值的列，如数组、JSONB、tsvector 等。当需要查询包含特定元素或满足特定条件的多值数据时，GIN 索引可以提供高效的查询性能。例如，查询包含特定标签的用户、具有特定属性的产品、包含特定关键词的文章等。

Q3: BRIN 索引适用于什么场景？

A3: BRIN 索引适用于大表中具有物理顺序相关性的列。例如，时间序列数据、日志表等按时间顺序插入的数据，或者顺序分配的主键列。BRIN 索引的体积非常小，查询时可以快速排除不相关的块范围，从而减少需要扫描的数据量。BRIN 索引不支持点查询，但对于范围查询和聚合查询非常有效。

Q4: 如何选择复合索引的列顺序？

A4: 复合索引的列顺序应该基于查询模式和数据分布。通常，将选择性高的列放在前面，将经常一起查询的列放在一起。例如，对于查询 SELECT * FROM orders WHERE user_id = ? AND order_date > ?，复合索引 (user_id, order_date) 会比 (order_date, user_id) 更高效。此外，复合索引遵循最左前缀原则，只有查询条件包含索引的最左列时，索引才能被有效使用。

Q5: 索引类型会影响插入和更新性能吗？

A5: 是的，索引会影响插入和更新性能。每次插入或更新数据时，数据库需要维护相关的索引结构，这会增加写操作的开销。不同类型的索引，其维护成本也不同。例如，GIN 索引的写操作代价较高，因为每次修改可能需要更新多个键值的 posting list。在设计索引时，需要权衡查询性能和写操作性能，避免创建过多不必要的索引。

PostgreSQL 索引类型选择 ​

B-tree 索引 ​

Hash 索引 ​

GiST 索引 ​

SP-GiST 索引 ​

GIN 索引 ​

BRIN 索引 ​

索引类型选择指南 ​

常见问题（FAQ） ​

Q1: B-tree 索引和 Hash 索引有什么区别？ ​

Q2: 什么时候应该使用 GIN 索引？ ​

Q3: BRIN 索引适用于什么场景？ ​

Q4: 如何选择复合索引的列顺序？ ​

Q5: 索引类型会影响插入和更新性能吗？ ​