当数据乱了套，我为什么最终投向了PostgreSQL？

本文分享了作者从MySQL迁移到PostgreSQL的实战经验。文章首先描述了MySQL在电商项目中遇到的性能瓶颈，随后详细介绍了PostgreSQL的三大优势：标准兼容性、多模扩展性和高可靠性。通过具体案例展示了PG处理JSON数据、事务操作等场景下的优异表现。文章提供了从安装配置到表设计、索引优化的完整指南，并重点讲解了PG特有的jsonb类型、物化视图、存储函数等高级功能。最后给出了性能调优

wdracky

412人浏览 · 2026-03-27 09:57:19

wdracky · 2026-03-27 09:57:19 发布

三年前，我接手了一个电商创业公司的数据系统。当时的状况只能用四个字形容——一片混乱。

MySQL 5.6，几十张表，没有任何外键约束，订单表和用户表的关联全靠程序员的“自觉”。最离谱的是，有一张 orders 表里存了 JSON 格式的扩展字段，但查询时要用到里面的某个属性，结果每次都要把全部数据拉回应用层用 Python 过滤。数据量到了 50 万行，一个简单的“统计某地区本月订单总额”的接口，响应时间从 500ms 飙升到了 8 秒。老板拍着桌子问：“为什么双十一我们连后台都打不开？”

我花了一周时间梳理，发现如果继续在 MySQL 上修修补补，最多只能撑半年。那时候，团队里有位老同事提了一句：“要不试试 PostgreSQL？”

说实话，我那时候对 PG 的印象还停留在“学院派数据库，配置复杂”的阶段。但抱着死马当活马医的心态，我们开始了迁移。三个月后，同样的一张订单表，数据量增长到 200 万行，那个原本需要 8 秒的接口，在 PG 上跑进了 300ms。而且，我们居然可以直接用 SQL 查询 JSON 里面的字段了！

从那以后，我就成了 PostgreSQL 的“自来水”。这篇文章，就是我这些年从入门到实战的经验总结，希望能帮你少踩一些我当年踩过的坑。

一、为什么是 PostgreSQL？不只是“开源”那么简单

在开始动手写 SQL 之前，我觉得有必要先聊聊：为什么今天还要专门学 PostgreSQL？

你可能会说，MySQL 不是挺火的吗？确实，MySQL 在互联网圈占有率极高，尤其早期 LAMP 架构深入人心。但 PostgreSQL 在这些年的发展，已经让它从一个“学术数据库”变成了企业级应用的优选。

1.1 标准兼容性：让你的 SQL 技能“一次学习，到处使用”

我第一次被 PostgreSQL 惊艳到，是发现它的 SQL 语法几乎严格遵循 ANSI SQL 标准。这意味着你在 PG 里学的窗口函数、公用表表达式（WITH 子句）、MERGE 语句，基本可以直接用在 Oracle、SQL Server 上，反过来也成立。

举个例子，我在 MySQL 里写一个排名查询，需要用变量或者复杂的子查询模拟。但在 PG 里，一行 ROW_NUMBER() OVER (PARTITION BY category ORDER BY price) 就搞定。这种对标准的高度遵循，让我觉得写 SQL 不再是“猜哪个数据库支持哪种语法”，而是回归到“我要查什么数据”的思维本身。

1.2 扩展性：从关系型到“全能型”数据库

PG 最大的魅力之一，是它通过扩展机制，把自己变成了一个“多模数据库”。你可以在同一个数据库里同时处理：

关系型数据（标准的表、视图、触发器）
键值存储（hstore 扩展）
JSON 文档（jsonb 类型，性能接近 MongoDB）
全文检索（内置全文搜索，还支持中文分词）
地理空间数据（PostGIS 扩展，业界事实标准）
时序数据（TimescaleDB 扩展）

我后来在另一个项目中，需要同时存储结构化订单数据和用户行为日志（半结构化 JSON）。如果用 MySQL，可能需要建两张表，或者用一个 TEXT 字段存 JSON 然后全表扫描。但在 PG 里，我直接用了 jsonb 字段，加上 GIN 索引，查询行为日志里的某个事件类型，和查普通字段一样快。

数据对比：在我们实际的压测中，对于 500 万行 jsonb 数据的查询（WHERE data->>'event' = 'click'），PG 加上 GIN 索引后，响应时间平均 120ms，而用 MySQL 的 JSON 函数 + 普通索引，平均 1.2 秒。这不是 PG 的魔法，而是设计上的差异——PG 的 jsonb 是二进制存储，可以直接建索引；MySQL 的 JSON 更多是文本存储，索引支持较弱。

1.3 可靠性：让你睡个好觉

PG 的可靠性，我深有体会。还是那个电商项目，因为历史原因，MySQL 时不时出现主从同步延迟，甚至有一次复制中断了 8 小时才被发现。迁移到 PG 后，我们用了内置的物理复制（Streaming Replication），同步延迟基本稳定在毫秒级，而且配置简单到只要在 postgresql.conf 里改几个参数。

更让我安心的是 PG 的 数据完整性 设计。比如，它默认就支持事务的 ACID，隔离级别实现得相当严格（默认 READ COMMITTED，支持可串行化快照隔离）。而 MySQL 在早期版本中，如果使用 MyISAM 引擎，连事务都没有，InnoDB 引擎虽然支持，但在一些边界条件下（比如 REPEATABLE READ 下的幻读），行为可能和标准有细微差异。

有一次，我们在一个订单处理流程中，需要先扣库存再生成订单，两个操作必须在同一个事务里。MySQL 下我们总是担心死锁，用 SELECT ... FOR UPDATE 还得小心锁范围。PG 里我用了 UPDATE ... RETURNING 结合 WITH 子句，一行 SQL 就完成了“扣库存并返回新库存值，如果库存不足则回滚整个事务”的逻辑，而且性能极好。

二、从零开始：15分钟搭建你的第一个PostgreSQL环境

说了这么多，你可能手痒了。让我们真正动手吧。

2.1 安装：别再被“配置文件”吓到

很多人觉得 PG 难安装，其实现在主流操作系统都有非常方便的包管理器。

在 macOS 上，我推荐用 brew：

brew install postgresql@16
brew services start postgresql@16

在 Ubuntu/Debian 上：

sudo apt update
sudo apt install postgresql-16
sudo systemctl start postgresql

在 Windows 上，去官网下载安装程序，一路 Next 就行，它会自动创建 postgres 超级用户和数据库。

安装完成后，默认会有一个名为 postgres 的超级用户和一个同名的数据库。切换到 postgres 用户登录数据库：

sudo -u postgres psql

看到类似这样的提示符，就说明成功了：

postgres=#

2.2 创建你的第一个数据库和用户

在生产环境里，我们通常不会用 postgres 超级用户来操作业务数据库。所以，第一步是创建一个新用户和数据库。

-- 创建用户，密码设为 'your_password'
CREATE USER myapp WITH PASSWORD 'your_password';

-- 创建数据库，所有者设为 myapp
CREATE DATABASE mydb OWNER myapp;

-- 把数据库的所有权限授予 myapp
GRANT ALL PRIVILEGES ON DATABASE mydb TO myapp;

接着，用新用户登录：

psql -U myapp -d mydb -h localhost

2.3 表设计：从简单的订单表开始

假设我们做一个简单的电商订单系统。先创建一张订单表：

CREATE TABLE orders (
    id SERIAL PRIMARY KEY,
    user_id INTEGER NOT NULL,
    order_no VARCHAR(32) UNIQUE NOT NULL,
    total_amount NUMERIC(10,2) NOT NULL CHECK (total_amount >= 0),
    status SMALLINT NOT NULL DEFAULT 1, -- 1:待支付 2:已支付 3:已取消
    created_at TIMESTAMPTZ NOT NULL DEFAULT NOW(),
    updated_at TIMESTAMPTZ NOT NULL DEFAULT NOW()
);

-- 添加注释，让数据库本身成为文档
COMMENT ON TABLE orders IS '订单主表';
COMMENT ON COLUMN orders.status IS '订单状态：1待支付 2已支付 3已取消';

这里有几个值得注意的点：

SERIAL 是自增整数，等价于 INTEGER GENERATED BY DEFAULT AS IDENTITY（推荐用后者，但 SERIAL 写法更简洁）。
NUMERIC(10,2) 保证了金额精确，不会出现浮点数精度问题。
TIMESTAMPTZ 是带时区的时间戳，推荐使用，可以避免跨时区项目里的时间混乱。
CHECK 约束直接在数据库层面防止了非法数据（比如负金额），比在应用层写 if 判断更可靠。

2.4 常用命令行操作：快速上手

刚接触 PG 的命令行工具 psql，你可能觉得有点复古，但熟悉后效率极高。

列出所有数据库：\l

切换数据库：\c mydb

列出当前数据库的所有表：\dt

查看表结构：\d orders

执行 SQL 文件：\i /path/to/file.sql

退出：\q

还有一个小技巧：在 psql 里输入 \? 可以列出所有快捷命令，输入 \h CREATE TABLE 可以查看 SQL 语法帮助。

三、核心开发技能：让 PostgreSQL 发挥真正实力

当你学会建表、插入、查询之后，接下来就该了解那些让 PG 与众不同的“杀手级”特性了。

3.1 高级数据类型：不只是字符串和数字

JSONB：让“无模式”数据也能高效查询

还记得开头那个电商项目吗？我们需要记录订单的扩展信息，比如用户使用的优惠券、物流信息、备注等。如果用传统设计，可能需要建一张 order_extras 表，或者用 TEXT 存 JSON，但查询很麻烦。

在 PG 里，我直接用了 jsonb：

ALTER TABLE orders ADD COLUMN extra JSONB;

-- 插入 JSON 数据
INSERT INTO orders (user_id, order_no, total_amount, extra)
VALUES (
    1001, 
    'ORD2024001', 
    299.00,
    '{"coupon_code": "SAVE20", "coupon_discount": 20, "shipping": {"address": "Beijing", "method": "express"}}'
);

现在，我要查询所有使用了 SAVE20 优惠券的订单：

SELECT * FROM orders WHERE extra->>'coupon_code' = 'SAVE20';

如果这个查询很频繁，可以创建一个 GIN 索引，性能提升巨大：

CREATE INDEX idx_orders_extra ON orders USING GIN (extra);

更复杂的场景，比如统计每个快递方式的使用次数：

SELECT extra->'shipping'->>'method' AS method, COUNT(*)
FROM orders
WHERE extra ? 'shipping'  -- 确保有 shipping 字段
GROUP BY method;

PG 的 jsonb 不仅支持查询，还支持在 JSON 内部进行更新，而不需要整个字段替换：

-- 给订单增加一个 '备注' 字段
UPDATE orders SET extra = extra || '{"remark": "请周末配送"}' WHERE id = 1;

这种灵活性，让 PG 在需要存储多变数据结构时，成为了关系型数据库和 NoSQL 之间的完美平衡点。

数组类型：简化一对多关系

有时候，一个字段天然就是列表，比如订单里的商品列表（每个商品有 ID、数量、价格）。传统做法是建一个 order_items 子表，但如果你想快速存储，也可以直接用数组：

CREATE TABLE orders_with_items (
    id SERIAL PRIMARY KEY,
    product_ids INTEGER[],
    quantities INTEGER[]
);

INSERT INTO orders_with_items (product_ids, quantities)
VALUES (ARRAY[101, 102], ARRAY[2, 1]);

-- 查询包含商品 101 的订单
SELECT * FROM orders_with_items WHERE 101 = ANY(product_ids);

当然，数组类型更适合简单的列表，如果子表本身有复杂结构（比如需要单独修改某个商品的数量），还是建议用关联表。

范围类型：处理时间区间、价格区间

PG 内置了多种范围类型，比如 int4range、daterange、tsrange（时间戳范围）。在预订系统、价格区间查询中特别有用。

假设我们有一张房间预订表，存储入住和退房日期：

CREATE TABLE bookings (
    id SERIAL PRIMARY KEY,
    room_id INTEGER,
    stay_period DATERANGE,
    guest_name TEXT
);

-- 插入预订，使用范围字面量 [2024-05-01, 2024-05-05)
INSERT INTO bookings (room_id, stay_period, guest_name)
VALUES (101, '[2024-05-01, 2024-05-05)', '张三');

-- 查询 2024-05-03 那天被预订的房间
SELECT room_id FROM bookings WHERE stay_period @> '2024-05-03'::DATE;

-- 查询预订重叠的房间（冲突检测）
SELECT a.room_id, a.guest_name, b.guest_name
FROM bookings a, bookings b
WHERE a.id != b.id 
  AND a.room_id = b.room_id
  AND a.stay_period && b.stay_period;

范围类型的索引也很快，PG 有专门的 gist 索引支持。

3.2 索引：从“全表扫描”到“毫秒响应”

索引是数据库性能的核心。PG 支持多种索引类型，每种都有自己的用武之地。

B-tree：最通用的索引

默认索引类型，适用于等值查询、范围查询、排序。

CREATE INDEX idx_orders_user_id ON orders(user_id);
CREATE INDEX idx_orders_created_at ON orders(created_at);

经验：在创建 B-tree 索引时，如果查询条件经常是 WHERE user_id = ? AND status = ?，可以创建复合索引 (user_id, status)，并且注意顺序——把等值条件放在前面，范围条件放在后面。

GIN：适用于包含、交集操作

主要用在数组、jsonb、全文搜索等场景。

CREATE INDEX idx_orders_extra_gin ON orders USING GIN (extra);

这样，执行 SELECT total_amount, created_at FROM orders WHERE user_id = 1001 AND status = 2 时，数据库可以直接从索引返回数据，不用访问表本身，速度提升明显。

3.3 视图和物化视图：简化复杂查询

普通视图：虚拟表，逻辑封装

假设我们经常需要查询每个用户的订单总额，可以创建一个视图：

CREATE VIEW user_order_stats AS
SELECT 
    user_id,
    COUNT(*) AS order_count,
    SUM(total_amount) AS total_spent,
    MAX(created_at) AS last_order_time
FROM orders
GROUP BY user_id;

之后就可以像查询普通表一样查询视图：SELECT * FROM user_order_stats WHERE total_spent > 1000;

物化视图：真正的性能利器

如果基础数据不经常变化，但视图查询很慢，可以用物化视图把结果缓存起来。

CREATE MATERIALIZED VIEW user_order_stats_mv AS
SELECT 
    user_id,
    COUNT(*) AS order_count,
    SUM(total_amount) AS total_spent,
    MAX(created_at) AS last_order_time
FROM orders
GROUP BY user_id;

-- 刷新物化视图
REFRESH MATERIALIZED VIEW user_order_stats_mv;

物化视图有自己的存储空间，需要手动刷新，适合报表类查询。

3.4 函数和触发器：让数据库承担更多逻辑

PG 支持多种语言编写函数，最常用的是 SQL 语言和 PL/pgSQL。

一个简单的 SQL 函数

CREATE FUNCTION get_order_total(order_id INTEGER) RETURNS NUMERIC AS $$
    SELECT total_amount FROM orders WHERE id = order_id;
$$ LANGUAGE SQL;

用 PL/pgSQL 写复杂逻辑

PL/pgSQL 是 PG 内置的过程语言，支持变量、循环、条件判断。

比如，我们需要一个函数，当用户支付成功后，自动更新订单状态并记录日志：

CREATE OR REPLACE FUNCTION pay_order(order_id INTEGER, payment_amount NUMERIC)
RETURNS BOOLEAN AS $$
DECLARE
    current_total NUMERIC;
BEGIN
    -- 获取订单金额
    SELECT total_amount INTO current_total FROM orders WHERE id = order_id FOR UPDATE;
    
    -- 校验支付金额
    IF payment_amount != current_total THEN
        RAISE EXCEPTION '支付金额 % 不等于订单金额 %', payment_amount, current_total;
    END IF;
    
    -- 更新订单状态
    UPDATE orders SET status = 2, updated_at = NOW() WHERE id = order_id;
    
    -- 插入支付日志（假设有 payment_logs 表）
    INSERT INTO payment_logs (order_id, amount, paid_at) 
    VALUES (order_id, payment_amount, NOW());
    
    RETURN TRUE;
END;
$$ LANGUAGE plpgsql;

调用函数：SELECT pay_order(123, 299.00);

触发器：自动维护数据完整性

比如，我们希望每次更新 orders 表的 updated_at 字段时，自动更新到当前时间：

CREATE OR REPLACE FUNCTION update_updated_at_column()
RETURNS TRIGGER AS $$
BEGIN
    NEW.updated_at = NOW();
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER trigger_orders_updated_at
    BEFORE UPDATE ON orders
    FOR EACH ROW
    EXECUTE FUNCTION update_updated_at_column();

这样，应用程序在更新订单时，就不用手动维护 updated_at 了。

四、进阶：让 PostgreSQL 在实战中更稳健

当你开始在生产环境使用 PG 时，有几个关键点需要注意。

4.1 性能调优：从 EXPLAIN 开始

当一条 SQL 跑得慢时，第一时间用 EXPLAIN ANALYZE 看执行计划。

EXPLAIN (ANALYZE, BUFFERS) 
SELECT * FROM orders WHERE user_id = 1001 AND status = 2;

输出会展示数据库到底走了什么索引、扫描了多少行、用了多长时间。我见过很多开发人员抱怨 PG 慢，其实都是因为索引没建对，或者统计信息过时。

常见问题：

顺序扫描而不是索引扫描：可能是条件选择性太低，或者统计信息不准。执行 ANALYZE orders; 更新统计信息。
使用了错误的索引：PG 优化器会根据成本选择，你可以用 SET enable_seqscan = off; 临时禁用顺序扫描，测试索引效果。
索引膨胀：长期频繁更新的表，索引可能膨胀，用 REINDEX INDEX index_name; 重建索引。

4.2 备份与恢复：最简单的两种方式

pg_dump：逻辑备份

# 备份整个数据库
pg_dump -U myapp -h localhost mydb > mydb_backup.sql

# 恢复
psql -U myapp -d mydb < mydb_backup.sql

逻辑备份的好处是跨版本、跨平台兼容，但恢复时间较长（因为要重放 SQL）。

pg_basebackup：物理备份（基础备份）

# 在数据库主机上执行
pg_basebackup -D /backup/base -Ft -z -P

物理备份速度快，适合大型数据库，但恢复时需要结合 WAL 日志（Write-Ahead Log）。

4.3 连接池：让应用不“断连”

PG 每个连接都会消耗一定内存（约 2-10MB），如果应用短连接很多，建议加一个连接池中间件，比如 PgBouncer。

它的配置非常简单：

[databases]
mydb = host=localhost port=5432 dbname=mydb

[pgbouncer]
listen_port = 6432
listen_addr = *
auth_type = md5
auth_file = /etc/pgbouncer/userlist.txt
pool_mode = transaction
max_client_conn = 1000
default_pool_size = 20

这样应用连接 6432 端口，PgBouncer 复用真实的数据库连接，可以轻松支撑上千个并发应用连接。

五、写在最后：PostgreSQL 值得你投入时间

写了这么多，我其实最想传达的是：PostgreSQL 是一个可以陪你成长的数据库。

一开始，你可能只把它当成一个“更好用的 MySQL”，用它建表、做索引、写复杂查询。随着项目复杂度增加，你会慢慢用到它的 JSONB、数组、全文搜索、PostGIS，甚至是它的扩展生态（比如 TimescaleDB 做时序数据，Citus 做分布式）。当你成为专家，你甚至可以直接参与它的社区，贡献代码或者插件。

在我接触过的数据库中，PG 是唯一一个让我觉得“学到的知识不会浪费”的。无论是标准语法的严谨，还是功能的丰富性，它都能让你在应对各种业务需求时游刃有余。

最后，送你几个学习建议：

动手，动手，再动手：看完这篇文章，请立刻打开终端，创建一个数据库，把文中的 SQL 都跑一遍。遇到报错是好事，那是你在和数据库对话。
多看官方文档：PostgreSQL 的官方文档是我见过最优秀的开源文档之一，从入门到内核，应有尽有。当你遇到问题时，先搜索 PostgreSQL 17 documentation，通常能找到最权威的答案。
关注版本更新：PG 每年发布一个主要版本，每个版本都有令人兴奋的新特性。比如 PG 17（预计 2024 年底发布）对 JSON 查询性能做了大幅优化，对分区表的支持也更完善。保持关注，可以让你用更少的代码实现更强的功能。

最后，如果你在学习和使用过程中遇到有趣的问题，欢迎在评论区留言。我见过有人用 PG 存微信聊天记录做全文搜索，有人用 PostGIS 做外卖配送路径规划，还有人在 PG 上跑整个 ERP 系统——这些故事，往往都是从第一行 CREATE DATABASE 开始的。

愿你的数据，永远井然有序。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git