2.5 推理模型时代

2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代

2024 年 9 月 12 日，OpenAI 发布了 o1-preview ^[1]——首个商用推理模型。这个模型和之前所有模型都不一样：它会在回答前先「思考」。

text

┌─────────────────────────────────────────────────────────────────────┐
│  2024.9: o1 — 推理模型的诞生                                          │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│    【传统模型 GPT-4o】                                                │
│                                                                     │
│    ┌──────────┐                           ┌──────────┐             │
│    │  问题输入  │ ──────────────────────▶  │  直接回答  │             │
│    └──────────┘      (立即生成)            └──────────┘             │
│                                                                     │
│    【推理模型 o1】                                                    │
│                                                                     │
│    ┌──────────┐     ┌─────────────────┐     ┌──────────┐           │
│    │  问题输入  │ ──▶ │   思考过程       │ ──▶ │  最终回答  │           │
│    └──────────┘     │  (reasoning     │     └──────────┘           │
│                     │   tokens)       │                             │
│                     │                 │                             │
│                     │  · 尝试多种策略   │                             │
│                     │  · 识别错误      │                             │
│                     │  · 自我纠正      │                             │
│                     └─────────────────┘                             │
│                                                                     │
│    🆕 内置思维链（不需要 prompt 引导）  🆕 复杂推理能力大幅提升          │
│    🆕 数学/编程能力跃升               🆕 会「承认错误」并重新思考        │
│                                                                     │
│    ❌ 速度慢（可能比 GPT-4o 慢 30 倍） ❌ 价格贵                        │
│    ❌ 不适合简单任务                  ❌ 初期不支持图片/文件             │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

o1 的内部代号曾是 "Q*" 和 "Strawberry"，在发布前就引发了大量猜测。

2.5.1 理论基础：思维链 (Chain of Thought)

推理模型的理论基础来自 2022 年 1 月 Google Brain 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》^[2]。作者 Jason Wei 等人发现：让模型展示中间推理步骤，能大幅提升复杂问题的解决能力。

text

【没有思维链】

问题：Roger 有 5 个网球，他又买了 2 罐网球，每罐 3 个。他现在有多少个？
回答：11

【有思维链】

问题：Roger 有 5 个网球，他又买了 2 罐网球，每罐 3 个。他现在有多少个？
思考：Roger 一开始有 5 个球。2 罐网球，每罐 3 个，就是 2 × 3 = 6 个。
      5 + 6 = 11。
回答：11

看起来答案一样？关键在于复杂问题。论文实验显示：在 GSM8K 数学基准测试上，使用思维链的 540B 参数模型达到了当时的最高水平。对于很多推理任务，没有思维链时模型性能随规模增长几乎不变（flat scaling curve），但加入思维链后，性能随模型规模急剧上升。

o1 vs GPT-4o 的本质区别：

GPT-4o 需要你在 prompt 里写「Let's think step by step」来引导它一步步思考。但 o1 内置了这个能力——你不需要引导，它自己就会先思考再回答。事实上，给 o1 加上「Let's think step by step」反而可能干扰它。

概念	英文	解释	为什么重要
思维链	Chain of Thought (CoT) ^[2:1]	让模型展示中间推理步骤	复杂问题解决能力的理论基础
推理 Token	Reasoning Tokens	o1 内部「思考」时生成的 Token	理解为什么 o1 更慢更贵
推理模型	Reasoning Model	先「思考」再回答的模型	数学/代码/逻辑能力的质变

2.5.2 性能跃升：从「后 10%」到「前 1%」

o1 的性能提升不是渐进式的，而是断崖式跃升：

测试	GPT-4o	o1-preview	o1 (正式版)	说明
AIME 2024 数学竞赛	12% (1.8/15)	44.6%	74-83%	美国高中数学精英赛
Codeforces 编程	—	—	89th percentile	竞技编程平台
物理/化学/生物	—	—	~75-80%	达到博士生水平

AIME 是什么？ American Invitational Mathematics Examination，美国数学邀请赛，是筛选高中数学精英的考试。能拿到 13.9/15 分（o1 使用 1000 样本重排序后的成绩）意味着：进入全美前 500 名高中生，有资格参加 USAMO（美国数学奥林匹克）。

从 GPT-4o 的 12%（1.8/15）到 o1 的 83%（12.5/15），这不是「更好一点」，而是从「随机猜」到「精英水平」的质变。

2.5.3 速度与成本的代价

推理能力的提升是有代价的：

速度：o1 可能比 GPT-4o 慢 30 倍。一个简单问题 GPT-4o 不到 1 秒回答，o1 可能要 2-3 分钟「思考」
价格：o1 的定价显著高于 GPT-4o
适用场景：简单任务用 o1 是浪费——它会过度思考

什么时候用 o1？

✅ 复杂数学推导
✅ 多步骤逻辑问题
✅ 需要深度分析的代码问题
❌ 简单问答
❌ 日常对话
❌ 需要快速响应的场景

2.5.4 DeepSeek R1：中国力量入场

2025 年 1 月 20 日，中国公司 DeepSeek 发布了 R1 ^[3]。这个模型引发了全球震动——不是因为它「又一个中国 AI」，而是因为它的成本效率。

训练成本争议：

说法	金额	来源
「RL 训练成本」	$294,000	Nature 论文，仅强化学习阶段
「完整训练成本」	~$5.87M	包含 DeepSeek V3 预训练
对比：GPT-4	~$100M	业界估算

无论用哪个数字，都比西方模型便宜一个数量级。

一周后的市场震荡：

2025 年 1 月 27 日，DeepSeek 超越 ChatGPT 成为美国 iOS 下载榜第一。同一天：

Nvidia 股价暴跌 17%，单日蒸发近 $6000 亿市值——美国股市史上最大单日市值损失
Nasdaq 跌超 3%，S&P 500 跌 1.5%
特朗普称这是美国科技界的「wake-up call」

投资者的恐慌逻辑是：如果中国能用这么低的成本做出同等性能的模型，那西方科技巨头计划投入的万亿美元 AI 基础设施，还有意义吗？

DeepSeek 的定价优势：

OpenAI CEO Sam Altman 承认：DeepSeek R1 的推理成本比 OpenAI 同类模型便宜 20-50 倍。官方 API 定价：

DeepSeek R1：$0.55/1M 输入，$2.19/1M 输出
比 OpenAI o1 便宜约 27 倍

2.5.5 DeepSeek 的国内体感

在国内，DeepSeek 的体感特别强：

免费：不需要翻墙，不需要付费
国产：没有政策风险
开源：MIT License，可以自己部署
性能：和 o1 基本持平

这让 DeepSeek 迅速成为很多人的第一个 AI 工具。我开头说「很多同事对 AI 的理解还停留在 DeepSeek 的对话框上」，就是这个原因——他们可能跳过了 ChatGPT、跳过了 Claude，直接从 DeepSeek 入门。

这既是好事（降低门槛），也是隐患（可能对 AI 的能力边界有误解）。

2.5.6 我的亲历视角：推理模型改变了什么

作者观点

以下是我对推理模型的个人使用感受。

说实话，o1 刚出来的时候我试了几次就放弃了——太慢了。等它「思考」的时间，我自己都想出答案了。

但后来在处理一些复杂的代码重构问题时，我发现 o1 确实能给出更系统的分析。它不是简单地「生成代码」，而是会先分析问题结构、考虑边界情况、然后给出方案。

DeepSeek R1 出来后，我主要用它来：

处理中文相关的任务（毕竟是中国公司，中文理解更好）
需要推理但不想付太多钱的场景
作为 Claude/GPT 的「第二意见」

一个有趣的观察：推理模型让「prompt engineering」变得没那么重要了。以前你需要精心设计 prompt、加各种引导语，现在直接把问题丢给 o1/R1，它自己就会深度思考。这某种程度上降低了使用门槛，但也让人更容易「过度依赖」。

[!TODO] 素材准备
[ ] CoT 原理示意图（Google 论文 Figure 1）
[ ] o1 vs GPT-4o AIME 成绩对比图
[ ] DeepSeek 下载量截图（App Store 排行榜）
[ ] Nvidia 股价暴跌新闻截图
[ ] DeepSeek vs OpenAI 定价对比表

参考资料

🔬 L1 | Introducing OpenAI o1 | OpenAI - OpenAI 于 2024 年 9 月 12 日发布 o1-preview，首个商用推理模型。 ↩︎
🔬 L1 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | arXiv - Google Brain 2022 年 1 月发布，Jason Wei 等人，发现思维链能大幅提升模型推理能力。 ↩︎ ↩︎
🔬 L1 | DeepSeek-R1 | GitHub - DeepSeek 于 2025 年 1 月 20 日发布，开源 MIT License，性能与 o1 相当。 ↩︎

2.5 推理模型时代 ​

2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代 ​

2.5.1 理论基础：思维链 (Chain of Thought) ​

2.5.2 性能跃升：从「后 10%」到「前 1%」 ​

2.5.3 速度与成本的代价 ​

什么时候用 o1？ ​

2.5.4 DeepSeek R1：中国力量入场 ​

2.5.5 DeepSeek 的国内体感 ​

2.5.6 我的亲历视角：推理模型改变了什么 ​

参考资料 ​