Appearance
2.4 2023.3: GPT-4 / Claude — 能力跃升
2023 年 3 月 14 日,OpenAI 发布了 GPT-4 [1]。同月,Anthropic 发布了 Claude(初代)[2]。这是 LLM 能力的一次质变——不只是「更聪明」,而是开始具备看图和调用工具的能力。
text
┌─────────────────────────────────────────────────────────────────────┐
│ 2023.3: GPT-4 / Claude — 能力跃升 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐ │
│ │ 文字输入 │ │ │ │ 文字输出 │ │
│ │ + │ ──▶ │ GPT-4 │ ──▶ │ + │ │
│ │ 图片输入 │ │ │ │ 函数调用 │ │
│ └──────────────┘ └─────────────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌───────────────────────┐ │
│ │ 🆕 多模态(能看图了) │ │
│ │ 🆕 Function Call │ │
│ │ 🆕 更大的 Context │ │
│ │ 🆕 更强的推理能力 │ │
│ └───────────────────────┘ │
│ │
│ ✅ 能看图片 ✅ 能调用外部工具 ✅ Context 8K → 32K │
│ ✅ 推理能力强 ✅ 幻觉大幅减少 ✅ 代码能力显著提升 │
│ │
│ ❌ 仍然无状态 ❌ 仍然有知识截止 ❌ 价格贵(是 GPT-3.5 的 20 倍)│
│ │
└─────────────────────────────────────────────────────────────────────┘GPT-4 vs GPT-3.5 的能力差距:
GPT-4 发布时,OpenAI 展示了一组惊人的数据 [1:1]:
| 考试 | GPT-3.5 | GPT-4 |
|---|---|---|
| 律师资格考试 (Bar Exam) | 后 10% | 前 10% |
| SAT 数学 | 70th percentile | 89th percentile |
| GRE 写作 | 4.0/6.0 | 4.0/6.0 |
| AP 生物 | 3/5 | 5/5 |
从「后 10%」跳到「前 10%」,这不是渐进式改进,而是质变。
2.4.1 多模态:不只是文字了
「多模态」(Multimodal)的意思很简单:模型不再只能处理文字,还能处理图片。
GPT-4V(Vision)是 2023 年 9 月正式开放的 [3],但 GPT-4 发布时就已经展示了这个能力。经典演示是给它看一张手绘草图,它能直接生成对应的网页代码。
text
【多模态的实际用途】
开发场景:
- 截图报错信息,让 AI 直接分析
- 拍摄白板上的架构图,让 AI 转成文字描述
- 上传 UI 设计稿,让 AI 生成前端代码
物联网场景:
- 拍摄接线图,让 AI 检查是否正确
- 上传设备面板截图,让 AI 解读状态
- 拍摄现场部署照片,让 AI 识别问题这对开发者来说是巨大的效率提升——以前你需要把图片里的内容手动打成文字描述,现在直接截图丢进去就行。
| 概念 | 英文 | 解释 | 为什么重要 |
|---|---|---|---|
| 多模态 | Multimodal [3:1] | 模型能同时处理文字、图片等多种输入 | 扩展了 AI 的应用场景 |
| 视觉语言模型 | Vision-Language Model (VLM) | 能「看图说话」的模型 | GPT-4V、Claude 3 都属于此类 |
2.4.2 Function Call:从「回答问题」到「执行动作」
2023 年 6 月 13 日,OpenAI 为 GPT-4 和 GPT-3.5 加入了 Function Calling 功能 [4]。这是一个关键转折点——模型不再只是「回答问题」,而是可以「执行动作」。
在这之前,LLM 只能输出文字。你问它「今天天气怎么样」,它只能基于训练数据猜测,或者说「我无法获取实时信息」。
有了 Function Call 之后:
text
【没有 Function Call】
用户:今天北京天气怎么样?
AI:抱歉,我无法获取实时天气信息。我的知识截止于 2023 年...
【有 Function Call】
用户:今天北京天气怎么样?
AI(内部决策):这个问题需要实时数据,我应该调用天气 API
AI(输出):{
"function": "get_weather",
"arguments": { "city": "北京" }
}
系统:调用天气 API,返回结果
AI:今天北京晴,气温 15-23°C,空气质量良好。Function Call 的工作原理:
text
┌─────────────────────────────────────────────────────────────────────┐
│ Function Call 工作流程 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 1. 开发者定义可用函数 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ functions: [ │ │
│ │ { name: "get_weather", params: { city: string } }, │ │
│ │ { name: "search_docs", params: { query: string } }, │ │
│ │ { name: "send_email", params: { to, subject, body } } │ │
│ │ ] │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 2. 用户提问 │
│ "帮我查一下北京的天气,然后发邮件告诉老板" │
│ │ │
│ ▼ │
│ 3. 模型决策:需要调用哪些函数? │
│ → get_weather({ city: "北京" }) │
│ → send_email({ to: "boss@...", subject: "天气", body: "..." }) │
│ │ │
│ ▼ │
│ 4. 系统执行函数,返回结果 │
│ │ │
│ ▼ │
│ 5. 模型整合结果,生成最终回复 │
│ │
└─────────────────────────────────────────────────────────────────────┘为什么 Function Call 是 Agent 的基础?
后面我们会讲到 Cursor、Claude Code 这些工具。它们能帮你读文件、写代码、运行命令——这些都是 Function Call 的应用。
- 读文件 = 调用
read_file函数 - 写文件 = 调用
write_file函数 - 运行命令 = 调用
execute_command函数 - 搜索代码 = 调用
search_codebase函数
没有 Function Call,就没有 Agent。这就是为什么 2023 年 6 月是 AI 编程的一个分水岭。
| 概念 | 英文 | 解释 | 为什么重要 |
|---|---|---|---|
| Function Call | Function Calling [4:1] | 模型输出结构化的函数调用请求 | Agent 能「执行动作」的基础 |
| 工具使用 | Tool Use | 更通用的说法,包括 Function Call | Anthropic 称之为 Tool Use [5] |
2.4.3 RAG:让 AI「有据可查」
LLM 有两个根本性问题:
- 知识截止:训练数据有截止日期,不知道「今天发生了什么」
- 幻觉:当不确定时,会一本正经地编造
RAG(Retrieval-Augmented Generation,检索增强生成) 是解决这两个问题的关键技术 [6]。
RAG 的核心思想:
「与其让模型记住所有知识,不如在需要时去查。」
这就像开卷考试 vs 闭卷考试的区别——RAG 让 AI 从「凭记忆回答」变成「先查资料再回答」。
text
┌─────────────────────────────────────────────────────────────────────┐
│ RAG 工作流程 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 【没有 RAG】 │
│ │
│ 用户问题 ──────────────────────────▶ LLM ──────▶ 回答 │
│ │ │
│ │ (只能靠训练时的记忆) │
│ │ │
│ ▼ │
│ 可能产生幻觉 │
│ │
│ 【有 RAG】 │
│ │
│ 用户问题 │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 检索器 │ ← 「这个问题需要查什么资料?」 │
│ │ (Retriever) │ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 知识库 │ ← 文档、数据库、网页、代码库... │
│ │ (Knowledge │ │
│ │ Base) │ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 相关文档片段 │ ← 检索到的 Top-K 结果 │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌────────────────────────────────────────┐ │
│ │ LLM │ │
│ │ │ │
│ │ Context = 用户问题 + 检索到的文档 │ │
│ │ │ │
│ └─────────────────┬───────────────────────┘ │
│ │ │
│ ▼ │
│ 有据可查的回答 │
│ │
└─────────────────────────────────────────────────────────────────────┘RAG 的历史背景:
RAG 的概念由 Facebook AI Research(现 Meta AI)在 2020 年提出 [6:1]。论文标题是《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》——用检索增强生成来处理知识密集型任务。
当时这篇论文的影响有限,因为 2020 年的 LLM 还不够强。但到了 ChatGPT 时代,RAG 突然变得极其重要——因为大家发现,光靠增大模型参数解决不了「知识更新」和「领域专业性」的问题。
为什么 RAG 比「重新训练」更实用?
| 方法 | 成本 | 时效性 | 可控性 |
|---|---|---|---|
| 重新训练模型 | 极高(数百万美元) | 慢(数周到数月) | 低(无法精确控制学到什么) |
| 微调(Fine-tuning) | 高(数千到数万美元) | 中等(数天) | 中等 |
| RAG | 低(只需维护知识库) | 实时(随时更新文档) | 高(精确控制信息来源) |
RAG 的技术细节:
RAG 系统的核心是向量检索。简单说:
- Embedding(嵌入):把文本转换成「向量」——一串数字,表示文本的「语义位置」
- 向量数据库:存储所有文档的向量,支持快速相似度搜索
- 相似度匹配:用户问题也转成向量,找到「语义最接近」的文档
text
┌─────────────────────────────────────────────────────────────────────┐
│ 向量检索原理(简化版) │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 文档入库阶段 │
│ ┌──────────────────────────────────────────────────────────────┐│
│ │ ││
│ │ "Python 是一种编程语言" ──▶ [0.12, 0.85, 0.33, ...] ││
│ │ "JavaScript 用于网页开发" ──▶ [0.15, 0.82, 0.41, ...] ││
│ │ "今天天气很好" ──▶ [0.91, 0.12, 0.08, ...] ││
│ │ │ ││
│ │ ▼ ││
│ │ 向量数据库存储 ││
│ │ ││
│ └──────────────────────────────────────────────────────────────┘│
│ │
│ 检索阶段 │
│ ┌──────────────────────────────────────────────────────────────┐│
│ │ ││
│ │ 用户问题: "Python 怎么学?" ││
│ │ │ ││
│ │ ▼ ││
│ │ [0.11, 0.87, 0.35, ...] (问题向量) ││
│ │ │ ││
│ │ ▼ ││
│ │ 计算与所有文档的「距离」 ││
│ │ │ ││
│ │ ▼ ││
│ │ 最相似: "Python 是一种编程语言" (距离: 0.03) ✅ ││
│ │ 次相似: "JavaScript 用于网页开发" (距离: 0.15) ││
│ │ 不相关: "今天天气很好" (距离: 0.89) ││
│ │ ││
│ └──────────────────────────────────────────────────────────────┘│
│ │
└─────────────────────────────────────────────────────────────────────┘主流向量数据库:
| 名称 | 特点 | 适用场景 |
|---|---|---|
| Pinecone | 托管服务,开箱即用 | 快速上手,不想自己运维 |
| Weaviate | 开源,支持多种模态 | 需要灵活定制 |
| Milvus | 开源,高性能 | 大规模生产环境 |
| Chroma | 轻量级,Python 友好 | 本地开发、原型验证 |
| pgvector | PostgreSQL 扩展 | 已有 PostgreSQL 的团队 |
RAG 在开发工具中的应用:
你可能没意识到,但你每天用的 AI 编程工具,核心就是 RAG:
| 工具 | RAG 应用 | 知识库 |
|---|---|---|
| Cursor | @codebase 搜索 | 你的代码库 |
| Claude Code | 代码搜索、文件读取 | 当前项目文件 |
| GitHub Copilot | 上下文感知补全 | 当前文件 + 相关文件 |
| ChatGPT Search | 联网搜索 | 互联网 |
| Perplexity | 实时检索 + 引用 | 互联网 + 学术论文 |
当你在 Cursor 里说「帮我找到所有处理用户认证的代码」,它做的事情就是:
- 把你的问题转成向量
- 在代码库的向量索引中搜索
- 找到最相关的代码片段
- 把这些片段塞进 Context,让 LLM 基于真实代码回答
RAG 的局限性:
RAG 不是万能的,它有几个常见问题:
| 问题 | 说明 | 缓解方法 |
|---|---|---|
| 检索质量 | 找到的文档可能不相关 | 优化 Embedding 模型、调整检索策略 |
| Context 限制 | 检索太多文档会超出 Context Window | 分块(Chunking)、重排序(Reranking) |
| 信息整合 | 多个文档的信息可能冲突 | 让模型标注信息来源 |
| 延迟 | 检索步骤增加响应时间 | 缓存、预计算 |
Chunking(分块)策略:
把长文档切成小块是 RAG 的关键步骤。切得不好,检索效果会很差:
text
【不好的分块】—— 按固定字数切割,切断了语义
"...这个函数用于处理用户登" | "录,它会验证密码并生成..."
↑ ↑
第 1 块结束 第 2 块开始
→ 检索「用户登录」时可能两块都找不到
【好的分块】—— 按语义边界切割
"这个函数用于处理用户登录,它会验证密码并生成 JWT token。"
→ 完整的语义单元,检索效果好常见的分块策略:
- 按段落:适合结构清晰的文档
- 按句子 + 重叠:每块包含前一块的最后几句,保持上下文
- 按代码结构:函数、类、模块为单位
- 语义分块:用模型判断语义边界
我的理解:
RAG 本质上是在说:「LLM 的强项是理解和推理,不是记忆。让它专注于强项,记忆的事交给检索系统。」
这和人类的工作方式很像——好的专家不是「什么都记得」,而是「知道去哪里查,查到后能理解和应用」。
| 概念 | 英文 | 解释 | 为什么重要 |
|---|---|---|---|
| RAG | Retrieval-Augmented Generation [6:2] | 先检索相关文档,再让 LLM 基于文档生成回答 | 解决知识截止和幻觉问题 |
| Embedding | Embedding [7] | 把文本转换成向量表示 | RAG 检索的基础 |
| 向量数据库 | Vector Database | 专门存储和检索向量的数据库 | 支撑大规模 RAG 系统 |
| Chunking | Chunking | 把长文档切分成适合检索的小块 | 影响 RAG 检索质量 |
[!TODO] 素材准备
- [ ] RAG 原理示意图(可参考 LangChain 文档)
- [ ] 向量检索可视化(二维空间中的语义聚类)
- [ ] Cursor @codebase 功能演示截图
2.4.4 Claude 的入场
2023 年 3 月 14 日,就在 GPT-4 发布的同一天,Anthropic 发布了 Claude [2:1]。这家公司由前 OpenAI 员工创立,包括 GPT-3 论文的第一作者 Dario Amodei。
Claude 的差异化定位是更安全、更诚实。它更愿意说「我不知道」,而不是编造答案。这在当时是一个明显的风格差异。
到 2024 年 3 月,Claude 3 系列发布,Context Window 直接拉到 200K tokens——是 GPT-4 的 6 倍多。这意味着你可以把一整本书丢进去让它分析。
竞争格局的变化:
| 时间 | 格局 |
|---|---|
| 2022.11 | OpenAI 一家独大(ChatGPT) |
| 2023.3 | Anthropic 入场(Claude),双雄对峙 |
| 2023.12 | Google Gemini 发布,三足鼎立 |
| 2024 | 开源模型崛起(Llama、Mistral),百花齐放 |
| 2025.1 | DeepSeek R1 发布,中国力量入场 |
2.4.4 我的亲历视角:Prompt 整理期
作者观点
以下是我个人在这段时期的使用经历。
说实话,这段时期我在代码方面的工作不多,所以没有太强的「GPT-4 比 GPT-3.5 强多少」的直接体感。
但我做了一件事:开始整理常用的 prompt。
这个阶段另一个明显的转变是:我渐渐只用 ChatGPT Search,不再用传统搜索引擎了。
以前查资料的流程是:Google 搜索 → 点进去 → 发现不对 → 换个关键词 → 再搜 → 再点。现在变成:直接问 ChatGPT → 它帮你整合多个来源 → 一次性给你答案。
这个习惯转变,其实就是后面 Part 4 会讲的「Context Engineering」的雏形——你开始意识到,如何组织信息给 AI,比单纯「问问题」更重要。
[!TODO] 素材准备
- [ ] GPT-4 发布时的官方演示截图(手绘草图生成网页)
- [ ] Function Call 工作原理示意图
- [ ] GPT-4 vs GPT-3.5 考试成绩对比图
- [ ] 补充「我的常用 prompt」例子
2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代
2024 年 9 月 12 日,OpenAI 发布了 o1-preview [8]——首个商用推理模型。这个模型和之前所有模型都不一样:它会在回答前先「思考」。
text
┌─────────────────────────────────────────────────────────────────────┐
│ 2024.9: o1 — 推理模型的诞生 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 【传统模型 GPT-4o】 │
│ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 问题输入 │ ──────────────────────▶ │ 直接回答 │ │
│ └──────────┘ (立即生成) └──────────┘ │
│ │
│ 【推理模型 o1】 │
│ │
│ ┌──────────┐ ┌─────────────────┐ ┌──────────┐ │
│ │ 问题输入 │ ──▶ │ 思考过程 │ ──▶ │ 最终回答 │ │
│ └──────────┘ │ (reasoning │ └──────────┘ │
│ │ tokens) │ │
│ │ │ │
│ │ · 尝试多种策略 │ │
│ │ · 识别错误 │ │
│ │ · 自我纠正 │ │
│ └─────────────────┘ │
│ │
│ 🆕 内置思维链(不需要 prompt 引导) 🆕 复杂推理能力大幅提升 │
│ 🆕 数学/编程能力跃升 🆕 会「承认错误」并重新思考 │
│ │
│ ❌ 速度慢(可能比 GPT-4o 慢 30 倍) ❌ 价格贵 │
│ ❌ 不适合简单任务 ❌ 初期不支持图片/文件 │
│ │
└─────────────────────────────────────────────────────────────────────┘o1 的内部代号曾是 "Q*" 和 "Strawberry",在发布前就引发了大量猜测。
2.5.1 理论基础:思维链 (Chain of Thought)
推理模型的理论基础来自 2022 年 1 月 Google Brain 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》[9]。作者 Jason Wei 等人发现:让模型展示中间推理步骤,能大幅提升复杂问题的解决能力。
text
【没有思维链】
问题:Roger 有 5 个网球,他又买了 2 罐网球,每罐 3 个。他现在有多少个?
回答:11
【有思维链】
问题:Roger 有 5 个网球,他又买了 2 罐网球,每罐 3 个。他现在有多少个?
思考:Roger 一开始有 5 个球。2 罐网球,每罐 3 个,就是 2 × 3 = 6 个。
5 + 6 = 11。
回答:11看起来答案一样?关键在于复杂问题。论文实验显示:在 GSM8K 数学基准测试上,使用思维链的 540B 参数模型达到了当时的最高水平。对于很多推理任务,没有思维链时模型性能随规模增长几乎不变(flat scaling curve),但加入思维链后,性能随模型规模急剧上升。
o1 vs GPT-4o 的本质区别:
GPT-4o 需要你在 prompt 里写「Let's think step by step」来引导它一步步思考。但 o1 内置了这个能力——你不需要引导,它自己就会先思考再回答。事实上,给 o1 加上「Let's think step by step」反而可能干扰它。
| 概念 | 英文 | 解释 | 为什么重要 |
|---|---|---|---|
| 思维链 | Chain of Thought (CoT) [9:1] | 让模型展示中间推理步骤 | 复杂问题解决能力的理论基础 |
| 推理 token | Reasoning Tokens | o1 内部「思考」时生成的 token | 理解为什么 o1 更慢更贵 |
| 推理模型 | Reasoning Model | 先「思考」再回答的模型 | 数学/代码/逻辑能力的质变 |
2.5.2 性能跃升:从「后 10%」到「前 1%」
o1 的性能提升不是渐进式的,而是断崖式跃升:
| 测试 | GPT-4o | o1-preview | o1 (正式版) | 说明 |
|---|---|---|---|---|
| AIME 2024 数学竞赛 | 12% (1.8/15) | 44.6% | 74-83% | 美国高中数学精英赛 |
| Codeforces 编程 | — | — | 89th percentile | 竞技编程平台 |
| 物理/化学/生物 | — | — | ~75-80% | 达到博士生水平 |
AIME 是什么? American Invitational Mathematics Examination,美国数学邀请赛,是筛选高中数学精英的考试。能拿到 13.9/15 分(o1 使用 1000 样本重排序后的成绩)意味着:进入全美前 500 名高中生,有资格参加 USAMO(美国数学奥林匹克)。
从 GPT-4o 的 12%(1.8/15)到 o1 的 83%(12.5/15),这不是「更好一点」,而是从「随机猜」到「精英水平」的质变。
2.5.3 速度与成本的代价
推理能力的提升是有代价的:
- 速度:o1 可能比 GPT-4o 慢 30 倍。一个简单问题 GPT-4o 不到 1 秒回答,o1 可能要 2-3 分钟「思考」
- 价格:o1 的定价显著高于 GPT-4o
- 适用场景:简单任务用 o1 是浪费——它会过度思考
什么时候用 o1?
- ✅ 复杂数学推导
- ✅ 多步骤逻辑问题
- ✅ 需要深度分析的代码问题
- ❌ 简单问答
- ❌ 日常对话
- ❌ 需要快速响应的场景
2.5.4 DeepSeek R1:中国力量入场
2025 年 1 月 20 日,中国公司 DeepSeek 发布了 R1 [10]。这个模型引发了全球震动——不是因为它「又一个中国 AI」,而是因为它的成本效率。
训练成本争议:
| 说法 | 金额 | 来源 |
|---|---|---|
| 「RL 训练成本」 | $294,000 | Nature 论文,仅强化学习阶段 |
| 「完整训练成本」 | ~$5.87M | 包含 DeepSeek V3 预训练 |
| 对比:GPT-4 | ~$100M | 业界估算 |
无论用哪个数字,都比西方模型便宜一个数量级。
一周后的市场震荡:
2025 年 1 月 27 日,DeepSeek 超越 ChatGPT 成为美国 iOS 下载榜第一。同一天:
- Nvidia 股价暴跌 17%,单日蒸发近 $6000 亿市值——美国股市史上最大单日市值损失
- Nasdaq 跌超 3%,S&P 500 跌 1.5%
- 特朗普称这是美国科技界的「wake-up call」
投资者的恐慌逻辑是:如果中国能用这么低的成本做出同等性能的模型,那西方科技巨头计划投入的万亿美元 AI 基础设施,还有意义吗?
DeepSeek 的定价优势:
OpenAI CEO Sam Altman 承认:DeepSeek R1 的推理成本比 OpenAI 同类模型便宜 20-50 倍。官方 API 定价:
- DeepSeek R1:$0.55/1M 输入,$2.19/1M 输出
- 比 OpenAI o1 便宜约 27 倍
2.5.5 DeepSeek 的国内体感
在国内,DeepSeek 的体感特别强:
- 免费:不需要翻墙,不需要付费
- 国产:没有政策风险
- 开源:MIT License,可以自己部署
- 性能:和 o1 基本持平
这让 DeepSeek 迅速成为很多人的第一个 AI 工具。我开头说「很多同事对 AI 的理解还停留在 DeepSeek 的对话框上」,就是这个原因——他们可能跳过了 ChatGPT、跳过了 Claude,直接从 DeepSeek 入门。
这既是好事(降低门槛),也是隐患(可能对 AI 的能力边界有误解)。
2.5.6 我的亲历视角:推理模型改变了什么
作者观点
以下是我对推理模型的个人使用感受。
说实话,o1 刚出来的时候我试了几次就放弃了——太慢了。等它「思考」的时间,我自己都想出答案了。
但后来在处理一些复杂的代码重构问题时,我发现 o1 确实能给出更系统的分析。它不是简单地「生成代码」,而是会先分析问题结构、考虑边界情况、然后给出方案。
DeepSeek R1 出来后,我主要用它来:
- 处理中文相关的任务(毕竟是中国公司,中文理解更好)
- 需要推理但不想付太多钱的场景
- 作为 Claude/GPT 的「第二意见」
一个有趣的观察:推理模型让「prompt engineering」变得没那么重要了。以前你需要精心设计 prompt、加各种引导语,现在直接把问题丢给 o1/R1,它自己就会深度思考。这某种程度上降低了使用门槛,但也让人更容易「过度依赖」。
[!TODO] 素材准备
- [ ] CoT 原理示意图(Google 论文 Figure 1)
- [ ] o1 vs GPT-4o AIME 成绩对比图
- [ ] DeepSeek 下载量截图(App Store 排行榜)
- [ ] Nvidia 股价暴跌新闻截图
- [ ] DeepSeek vs OpenAI 定价对比表
参考资料
🔬 L1 | GPT-4 | OpenAI - OpenAI 于 2023 年 3 月 14 日发布 GPT-4。 ↩︎ ↩︎
🔬 L1 | Introducing Claude | Anthropic - Anthropic 于 2023 年 3 月发布 Claude。 ↩︎ ↩︎
🔬 L1 | GPT-4V(ision) system card | OpenAI - GPT-4 视觉能力于 2023 年 9 月正式开放。 ↩︎ ↩︎
🔬 L1 | Function calling | OpenAI - OpenAI 于 2023 年 6 月 13 日发布 Function Calling 功能。 ↩︎ ↩︎
🔬 L1 | Tool use | Anthropic - Anthropic 的工具使用文档,功能类似 OpenAI 的 Function Call。 ↩︎
🔬 L1 | Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks | arXiv - Facebook AI Research(现 Meta AI)2020 年发布的 RAG 原始论文,Patrick Lewis 等人。首次提出将检索系统与生成模型结合的范式。 ↩︎ ↩︎ ↩︎
📝 L3 | What are embeddings? | Vicki Boykis - Vicki Boykis 的深度长文,详解 Embedding 的原理、历史和应用,被广泛推荐为入门必读。另见 Embeddings | OpenAI。 ↩︎
🔬 L1 | Introducing OpenAI o1 | OpenAI - OpenAI 于 2024 年 9 月 12 日发布 o1-preview,首个商用推理模型。 ↩︎
🔬 L1 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | arXiv - Google Brain 2022 年 1 月发布,Jason Wei 等人,发现思维链能大幅提升模型推理能力。 ↩︎ ↩︎
🔬 L1 | DeepSeek-R1 | GitHub - DeepSeek 于 2025 年 1 月 20 日发布,开源 MIT License,性能与 o1 相当。 ↩︎