Appearance
2.5 推理模型时代
2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代
2024 年 9 月 12 日,OpenAI 发布了 o1-preview [1]——首个商用推理模型。这个模型和之前所有模型都不一样:它会在回答前先「思考」。
text
┌─────────────────────────────────────────────────────────────────────┐
│ 2024.9: o1 — 推理模型的诞生 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 【传统模型 GPT-4o】 │
│ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 问题输入 │ ──────────────────────▶ │ 直接回答 │ │
│ └──────────┘ (立即生成) └──────────┘ │
│ │
│ 【推理模型 o1】 │
│ │
│ ┌──────────┐ ┌─────────────────┐ ┌──────────┐ │
│ │ 问题输入 │ ──▶ │ 思考过程 │ ──▶ │ 最终回答 │ │
│ └──────────┘ │ (reasoning │ └──────────┘ │
│ │ tokens) │ │
│ │ │ │
│ │ · 尝试多种策略 │ │
│ │ · 识别错误 │ │
│ │ · 自我纠正 │ │
│ └─────────────────┘ │
│ │
│ 🆕 内置思维链(不需要 prompt 引导) 🆕 复杂推理能力大幅提升 │
│ 🆕 数学/编程能力跃升 🆕 会「承认错误」并重新思考 │
│ │
│ ❌ 速度慢(可能比 GPT-4o 慢 30 倍) ❌ 价格贵 │
│ ❌ 不适合简单任务 ❌ 初期不支持图片/文件 │
│ │
└─────────────────────────────────────────────────────────────────────┘o1 的内部代号曾是 "Q*" 和 "Strawberry",在发布前就引发了大量猜测。
2.5.1 理论基础:思维链 (Chain of Thought)
推理模型的理论基础来自 2022 年 1 月 Google Brain 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》[2]。作者 Jason Wei 等人发现:让模型展示中间推理步骤,能大幅提升复杂问题的解决能力。
text
【没有思维链】
问题:Roger 有 5 个网球,他又买了 2 罐网球,每罐 3 个。他现在有多少个?
回答:11
【有思维链】
问题:Roger 有 5 个网球,他又买了 2 罐网球,每罐 3 个。他现在有多少个?
思考:Roger 一开始有 5 个球。2 罐网球,每罐 3 个,就是 2 × 3 = 6 个。
5 + 6 = 11。
回答:11看起来答案一样?关键在于复杂问题。论文实验显示:在 GSM8K 数学基准测试上,使用思维链的 540B 参数模型达到了当时的最高水平。对于很多推理任务,没有思维链时模型性能随规模增长几乎不变(flat scaling curve),但加入思维链后,性能随模型规模急剧上升。
o1 vs GPT-4o 的本质区别:
GPT-4o 需要你在 prompt 里写「Let's think step by step」来引导它一步步思考。但 o1 内置了这个能力——你不需要引导,它自己就会先思考再回答。事实上,给 o1 加上「Let's think step by step」反而可能干扰它。
| 概念 | 英文 | 解释 | 为什么重要 |
|---|---|---|---|
| 思维链 | Chain of Thought (CoT) [2:1] | 让模型展示中间推理步骤 | 复杂问题解决能力的理论基础 |
| 推理 Token | Reasoning Tokens | o1 内部「思考」时生成的 Token | 理解为什么 o1 更慢更贵 |
| 推理模型 | Reasoning Model | 先「思考」再回答的模型 | 数学/代码/逻辑能力的质变 |
2.5.2 性能跃升:从「后 10%」到「前 1%」
o1 的性能提升不是渐进式的,而是断崖式跃升:
| 测试 | GPT-4o | o1-preview | o1 (正式版) | 说明 |
|---|---|---|---|---|
| AIME 2024 数学竞赛 | 12% (1.8/15) | 44.6% | 74-83% | 美国高中数学精英赛 |
| Codeforces 编程 | — | — | 89th percentile | 竞技编程平台 |
| 物理/化学/生物 | — | — | ~75-80% | 达到博士生水平 |
AIME 是什么? American Invitational Mathematics Examination,美国数学邀请赛,是筛选高中数学精英的考试。能拿到 13.9/15 分(o1 使用 1000 样本重排序后的成绩)意味着:进入全美前 500 名高中生,有资格参加 USAMO(美国数学奥林匹克)。
从 GPT-4o 的 12%(1.8/15)到 o1 的 83%(12.5/15),这不是「更好一点」,而是从「随机猜」到「精英水平」的质变。
2.5.3 速度与成本的代价
推理能力的提升是有代价的:
- 速度:o1 可能比 GPT-4o 慢 30 倍。一个简单问题 GPT-4o 不到 1 秒回答,o1 可能要 2-3 分钟「思考」
- 价格:o1 的定价显著高于 GPT-4o
- 适用场景:简单任务用 o1 是浪费——它会过度思考
什么时候用 o1?
- ✅ 复杂数学推导
- ✅ 多步骤逻辑问题
- ✅ 需要深度分析的代码问题
- ❌ 简单问答
- ❌ 日常对话
- ❌ 需要快速响应的场景
2.5.4 DeepSeek R1:中国力量入场
2025 年 1 月 20 日,中国公司 DeepSeek 发布了 R1 [3]。这个模型引发了全球震动——不是因为它「又一个中国 AI」,而是因为它的成本效率。
训练成本争议:
| 说法 | 金额 | 来源 |
|---|---|---|
| 「RL 训练成本」 | $294,000 | Nature 论文,仅强化学习阶段 |
| 「完整训练成本」 | ~$5.87M | 包含 DeepSeek V3 预训练 |
| 对比:GPT-4 | ~$100M | 业界估算 |
无论用哪个数字,都比西方模型便宜一个数量级。
一周后的市场震荡:
2025 年 1 月 27 日,DeepSeek 超越 ChatGPT 成为美国 iOS 下载榜第一。同一天:
- Nvidia 股价暴跌 17%,单日蒸发近 $6000 亿市值——美国股市史上最大单日市值损失
- Nasdaq 跌超 3%,S&P 500 跌 1.5%
- 特朗普称这是美国科技界的「wake-up call」
投资者的恐慌逻辑是:如果中国能用这么低的成本做出同等性能的模型,那西方科技巨头计划投入的万亿美元 AI 基础设施,还有意义吗?
DeepSeek 的定价优势:
OpenAI CEO Sam Altman 承认:DeepSeek R1 的推理成本比 OpenAI 同类模型便宜 20-50 倍。官方 API 定价:
- DeepSeek R1:$0.55/1M 输入,$2.19/1M 输出
- 比 OpenAI o1 便宜约 27 倍
2.5.5 DeepSeek 的国内体感
在国内,DeepSeek 的体感特别强:
- 免费:不需要翻墙,不需要付费
- 国产:没有政策风险
- 开源:MIT License,可以自己部署
- 性能:和 o1 基本持平
这让 DeepSeek 迅速成为很多人的第一个 AI 工具。我开头说「很多同事对 AI 的理解还停留在 DeepSeek 的对话框上」,就是这个原因——他们可能跳过了 ChatGPT、跳过了 Claude,直接从 DeepSeek 入门。
这既是好事(降低门槛),也是隐患(可能对 AI 的能力边界有误解)。
2.5.6 我的亲历视角:推理模型改变了什么
作者观点
以下是我对推理模型的个人使用感受。
说实话,o1 刚出来的时候我试了几次就放弃了——太慢了。等它「思考」的时间,我自己都想出答案了。
但后来在处理一些复杂的代码重构问题时,我发现 o1 确实能给出更系统的分析。它不是简单地「生成代码」,而是会先分析问题结构、考虑边界情况、然后给出方案。
DeepSeek R1 出来后,我主要用它来:
- 处理中文相关的任务(毕竟是中国公司,中文理解更好)
- 需要推理但不想付太多钱的场景
- 作为 Claude/GPT 的「第二意见」
一个有趣的观察:推理模型让「prompt engineering」变得没那么重要了。以前你需要精心设计 prompt、加各种引导语,现在直接把问题丢给 o1/R1,它自己就会深度思考。这某种程度上降低了使用门槛,但也让人更容易「过度依赖」。
[!TODO] 素材准备
- [ ] CoT 原理示意图(Google 论文 Figure 1)
- [ ] o1 vs GPT-4o AIME 成绩对比图
- [ ] DeepSeek 下载量截图(App Store 排行榜)
- [ ] Nvidia 股价暴跌新闻截图
- [ ] DeepSeek vs OpenAI 定价对比表
参考资料
🔬 L1 | Introducing OpenAI o1 | OpenAI - OpenAI 于 2024 年 9 月 12 日发布 o1-preview,首个商用推理模型。 ↩︎
🔬 L1 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | arXiv - Google Brain 2022 年 1 月发布,Jason Wei 等人,发现思维链能大幅提升模型推理能力。 ↩︎ ↩︎
🔬 L1 | DeepSeek-R1 | GitHub - DeepSeek 于 2025 年 1 月 20 日发布,开源 MIT License,性能与 o1 相当。 ↩︎