问题出现

那天凌晨两点,手机开始疯狂震动

小王把他的短链接分享到了微博。

一个科技博主的转发,让他的 SaaS 产品页面一夜之间涌入了上万人。每一个访客都要经过我的短链接服务跳转——我的那台 1 核 2G 的小服务器,突然开始承载它从未见过的流量。

我盯着监控面板,看着数字一路飙升:

时间线:
- 第1周:23 个用户,156 个短链接,日访问量 43 次
- 第2周:89 个用户,1,245 个短链接,日访问量 1,234 次
- 第3周:234 个用户,5,678 个短链接,日访问量 6,789 次
- 第4周:567 个用户,12,345 个短链接,日访问量 15,678 次

增长速度:
- 用户增长:25 倍
- 短链接增长:79 倍
- 日访问量:43 → 15,678(365 倍)

一个月前,我还觉得这个项目没人用。现在,567 个用户每天都在依赖它。

这本该让我开心。但手机不停震动的通知告诉我——好戏才刚刚开始。


第一个告警:SQLite 扛不住了 💥

凌晨 2:17,第一条告警弹了出来:

[2024-02-15 02:17:33] ERROR: Database connection pool exhausted
[2024-02-15 02:17:33] ERROR: Unable to acquire database connection within 30s
[2024-02-15 02:17:34] ERROR: Request timeout: GET /d7f3b2
[2024-02-15 02:17:35] ERROR: Request timeout: GET /a3f8c2
[2024-02-15 02:17:35] ERROR: Request timeout: GET /b7d9e1
...

我立刻打开服务逻辑,心跳加速——

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

问题很清楚:SQLite 默认只允许 1 个写入连接。当并发请求达到上百个时,大量请求在排队等锁:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

我没有犹豫。凌晨 2:30,我开始做一件从来没在生产环境做过的事——数据库迁移

SQLite → PostgreSQL。手心全是汗。

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

凌晨 4 点,迁移完成。监控面板上的错误日志停止了滚动。

方案最大连接数并发处理能力响应时间
SQLite(无连接池)11 QPS不稳定
SQLite(有连接池)11 QPS仍然差
PostgreSQL1001000+ QPS稳定

我瘫在椅子上,看着监控曲线恢复平稳。那一刻我明白了一件事:SQLite 是个好数据库,但它不是为这个场景设计的。


第二个告警:响应时间从 45ms 飙到 345ms 🐌

刚搞定数据库,新的问题又来了。

用户反馈”短链接打开变慢了”。我查了监控数据,整个人都不好了:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

P99 从 123ms 涨到 3.5 秒。在用户看来,就是”点了没反应”。

我给每个重定向请求加了计时分析:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

90% 的时间花在数据库查询上。数据量从几百条涨到了一万多条,每次查询都在做全表扫描

我打开数据库检查索引:

数据设计要点

  • 这里关注数据模型和约束关系,不需要记住具体语法。

一个 CREATE INDEX 就能解决的事:

数据设计要点

  • 索引服务于高频查询,重点关注 idx_short_code
  • 查询目标是用短码快速找到目标链接、状态或统计结果,避免在跳转路径上做大范围扫描。
  • 这里要读的是执行计划结论:有没有命中索引、扫描行数是否可控、是否出现全表扫描。

跑了一遍性能测试,看到结果的那一刻,我长出一口气:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

一个索引,19.5 倍提升。这个教训我记一辈子——任何经常出现在 WHERE 子句里的字段,都必须建索引。


第三个告警:磁盘 87% 了 💾

我刚准备去补个觉,运维同学(其实就是我自己)发来消息:

磁盘空间告警:
- 总容量:100GB
- 已使用:87GB
- 可用空间:13GB
- 使用率:87%

预计:3 天后磁盘将满!

我把磁盘占用拆开算了一遍:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

日志 45 GB。每次短链接访问我都写一条详细日志,每天 15,678 次访问 × 约 200 字节 ≈ 3 MB/天。积少成多,一个月下来就爆了。

解决方案很直接——日志轮转 + 压缩

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

磁盘使用率从 87% 降到了 34%。这个问题的教训是:日志不是免费的,它是隐形成本最高的存储消耗。


最可怕的问题:短链接指向了别人的网站 🎲

如果说前面三个问题只是”系统不好用”,那这个就是”系统不可信”。

一个用户发来了愤怒的邮件:

我创建的短链接和别人的重复了!

我的短链接:https://short.url/a3f8c2 指向:https://mywebsite.com/page1

但打开后跳转到:https://otherwebsite.com/page2

请尽快处理!

我的心一下子提到了嗓子眼。短链接指向错误页面——这比宕机还严重。用户信任一旦崩塌,就再也回不来了。

我马上检查短码生成逻辑:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

问题出在这里:MD5 前 6 位只有 16^6 = 1677 万种组合。在 12,345 个链接的规模下,冲突已经出现了。

我跑了个测试:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

万分之二的冲突率,听起来不高。但对于一个短链接服务来说,一次冲突就是一次事故

我花了一整天重写短码生成方案,最终选择了自增 ID + Base62

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

自增 ID 保证唯一,Base62 保证短码紧凑。6 位 Base62 可以表示 568 亿个链接,足够了。

优点一目了然:

  1. 完全唯一,不可能有冲突
  2. 短码更短,6 位就够了
  3. 生成速度极快,不需要计算哈希

那天晚上,我给受影响的用户逐一发了道歉邮件。这是关系到用户信任的问题,不能出半点差错。


第五个告警:OOM Killer 把我的进程干掉了 💾

周四下午,服务突然完全无响应。

不是慢,是完全挂了

我 SSH 到服务器,查看系统日志:

[2024-02-15 16:45:23] ERROR: Out of memory
[2024-02-15 16:45:23] ERROR: Killed (OOM Killer)

OOM Killer——Linux 内核在内存耗尽时强制杀掉进程的自救机制。我成了被杀掉的那个。

罪魁祸首很快找到了:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

算了笔账:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

解决方案很明确:用专业的缓存服务替代 Python 字典

我引入了 Redis,带 LRU(最近最少使用)淘汰策略:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

Redis 的好处是:内存用满时自动淘汰最冷的数据,不会无限制增长。同时缓存命中时响应时间从毫秒级降到微秒级

重启服务后,我盯着内存监控看了整整一个小时,确认曲线稳住了才敢移开眼睛。


经历了这一周的连环打击,我决定重新设计架构 🏗️

周五晚上,我坐在电脑前,把这周经历的所有问题列了一遍:

  1. SQLite 扛不住并发 → 换了 PostgreSQL
  2. 数据库查询太慢 → 加了索引
  3. 日志吃掉磁盘 → 做了日志轮转
  4. 短码冲突导致数据错误 → 重写了短码生成
  5. 内存溢出搞挂服务 → 引入了 Redis

每个问题都是临时救火,但系统已经变成了一堆补丁。我需要重新梳理一下整体架构:

┌─────────────────────────────────────────────────────────┐
│                      负载均衡器                          │
│                    (Nginx/HAProxy)                      │
└───────────────────────┬─────────────────────────────────┘

        ┌───────────────┼───────────────┐
        │               │               │
┌───────▼───────┐ ┌────▼────┐ ┌───────▼───────┐
│  Web 服务器1  │ │Web 服务器2│ │  Web 服务器3  │
│  (Flask/Gunicorn)         │ │               │
└───────┬───────┘ └────┬────┘ └───────┬───────┘
        │               │               │
        └───────────────┼───────────────┘

        ┌───────────────┼───────────────┐
        │               │               │
┌───────▼───────┐ ┌────▼────┐ ┌───────▼───────┐
│  Redis 缓存   │ │Redis 缓存│ │  Redis 缓存   │
│  (主从复制)   │ │(从节点) │ │  (从节点)     │
└───────┬───────┘ └────┬────┘ └───────┬───────┘
        │               │               │
        └───────────────┼───────────────┘

        ┌───────────────┴───────────────┐
        │                               │
┌───────▼────────┐            ┌────────▼────────┐
│  PostgreSQL    │            │   消息队列       │
│  (主从复制)    │            │  (日志收集)     │
└────────────────┘            └─────────────────┘

技术栈全面升级:

组件旧方案新方案原因
数据库SQLitePostgreSQL支持更多并发连接
缓存Python dictRedis专业缓存方案
Web 服务器Flask devGunicorn生产级服务器
负载均衡Nginx分散请求压力
日志文件直接写入消息队列 + 异步提升性能
监控Prometheus实时监控系统

这一月我瘦了 3 斤,但系统终于稳住了 📊

周末,我跑了一轮完整的性能测试,对比优化前后的数据:

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。
指标优化前优化后提升
平均响应时间2345 ms45 ms52 倍
QPS842753 倍
成功率78.5%99.9%+27%

总结一下这一个月踩过的坑和填过的坑:

问题原因解决方案
连接耗尽SQLite 并发限制切换到 PostgreSQL + 连接池
响应变慢缺少索引添加索引 + 使用 Redis 缓存
磁盘告急日志太大日志轮转 + 压缩
短码冲突MD5 哈希冲突使用自增 ID + Base62
内存溢出无限制缓存使用 Redis + LRU 策略

系统的演进路线也清晰了:

阶段1(单机):
  Flask + SQLite + 本地缓存

阶段2(优化):
  Flask + PostgreSQL + Redis + 连接池

阶段3(分布式):
  负载均衡 + 多台服务器 + 主从复制

这一周我瘦了 3 斤,但系统终于稳住了。


关键经验

这一个月的救火经历,让我学到了几件事:

  1. 提前规划:不要等问题出现再处理。如果我从一开始就用 PostgreSQL,第一个告警根本不会发生。
  2. 监控是生命线:没有监控,我根本不知道系统出了什么问题。告警让我能在用户投诉前发现问题。
  3. 逐步优化:一次解决一个问题。同时改太多东西,出了 bug 都不知道是哪个改动引起的。
  4. 性能测试不能省:如果不是跑了对比测试,我不会有底气说”系统稳住了”。

但事情还没有结束。流量还在涨,用户开始抱怨短链接打开速度不够快。我需要更快的跳转速度……


想一想

问题1

如果你的服务突然被某个热门新闻引用,流量瞬间增长 100 倍,你会怎么做?

提示

考虑以下几个方面:

  1. 快速扩容:云服务自动伸缩
  2. 限流保护:防止系统被冲垮
  3. 降级服务:保证核心功能(跳转),暂停非核心功能(统计)
  4. CDN 加速:减轻源站压力

问题2

如何设计一个高可用的短链接系统?单机房扛不住时怎么办?

提示

考虑以下几个方面:

  1. 多机房部署(异地多活)
  2. 数据库主从复制
  3. 缓存集群
  4. 自动故障转移
  5. 定期备份

练习题

练习1

为什么从 SQLite 切换到 PostgreSQL 能大幅提升并发性能?我凌晨两点做这个决策时,心里其实也没底。

参考答案

关键差异

  1. 连接模型

    • SQLite:文件级锁,写入时锁定整个数据库
    • PostgreSQL:MVCC(多版本并发控制),读写不冲突
  2. 并发能力

    • SQLite:1 个写入连接 + 少量读取连接
    • PostgreSQL:数百个并发连接
  3. 性能差异

    SQLite:
    - 写入 QPS:约 100
    - 读取 QPS:约 1,000
    
    PostgreSQL:
    - 写入 QPS:约 10,000
    - 读取 QPS:约 100,000
  4. 适用场景

    • SQLite:嵌入式应用、单用户工具、开发测试
    • PostgreSQL:Web 应用、高并发系统、生产环境

为什么一开始不直接用 PostgreSQL? 因为在当时,我根本没想过这个项目会有 500 多个用户。技术选型总是要权衡”现在需要什么”和”未来可能需要什么”。

练习2

Redis 缓存为什么能提升性能?缓存穿透、缓存击穿、缓存雪崩分别是什么?

参考答案

Redis 缓存优势

  1. 速度快:内存操作,比数据库快 100-1000 倍
  2. 支持高并发:单机支持 10 万+ QPS
  3. 丰富的数据结构:String、Hash、List 等

三大缓存问题

缓存穿透:查询不存在的数据,每次都穿透到数据库。

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

缓存击穿:热点数据过期瞬间,大量请求同时打到数据库。

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

缓存雪崩:大量缓存同时过期,数据库压力骤增。

落地思路

  • 这里省略具体语法,只保留设计层面的职责边界。
  • 读这段时重点看:输入是什么、系统做哪些判断、状态如何变化、失败时如何兜底。

这三个问题我后来都遇到过。缓存击穿最阴险——平时一切正常,某个热点链接过期的那一秒,系统突然就扛不住了。

(下一节:自定义短链接)