2.4 2023.3: GPT-4 / Claude — 能力跃升

2023 年 3 月 14 日，OpenAI 发布了 GPT-4 ^[1]。同月，Anthropic 发布了 Claude（初代）^[2]。这是 LLM 能力的一次质变——不只是「更聪明」，而是开始具备看图和调用工具的能力。

text

┌─────────────────────────────────────────────────────────────────────┐
│  2023.3: GPT-4 / Claude — 能力跃升                                   │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│    ┌──────────────┐     ┌─────────────────┐     ┌──────────────┐   │
│    │   文字输入    │     │                 │     │   文字输出    │   │
│    │      +       │ ──▶ │     GPT-4       │ ──▶ │      +       │   │
│    │   图片输入    │     │                 │     │   函数调用    │   │
│    └──────────────┘     └─────────────────┘     └──────────────┘   │
│                                │                                    │
│                                ▼                                    │
│                    ┌───────────────────────┐                       │
│                    │  🆕 多模态（能看图了）  │                       │
│                    │  🆕 Function Call     │                       │
│                    │  🆕 更大的 Context     │                       │
│                    │  🆕 更强的推理能力     │                       │
│                    └───────────────────────┘                       │
│                                                                     │
│    ✅ 能看图片      ✅ 能调用外部工具      ✅ Context 8K → 32K       │
│    ✅ 推理能力强    ✅ 幻觉大幅减少        ✅ 代码能力显著提升        │
│                                                                     │
│    ❌ 仍然无状态    ❌ 仍然有知识截止      ❌ 价格贵（是 GPT-3.5 的 20 倍）│
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

GPT-4 vs GPT-3.5 的能力差距：

GPT-4 发布时，OpenAI 展示了一组惊人的数据 ^[1:1]：

考试	GPT-3.5	GPT-4
律师资格考试 (Bar Exam)	后 10%	前 10%
SAT 数学	70th percentile	89th percentile
GRE 写作	4.0/6.0	4.0/6.0
AP 生物	3/5	5/5

从「后 10%」跳到「前 10%」，这不是渐进式改进，而是质变。

2.4.1 多模态：不只是文字了

「多模态」（Multimodal）的意思很简单：模型不再只能处理文字，还能处理图片。

GPT-4V（Vision）是 2023 年 9 月正式开放的 ^[3]，但 GPT-4 发布时就已经展示了这个能力。经典演示是给它看一张手绘草图，它能直接生成对应的网页代码。

text

【多模态的实际用途】

开发场景：
  - 截图报错信息，让 AI 直接分析
  - 拍摄白板上的架构图，让 AI 转成文字描述
  - 上传 UI 设计稿，让 AI 生成前端代码

物联网场景：
  - 拍摄接线图，让 AI 检查是否正确
  - 上传设备面板截图，让 AI 解读状态
  - 拍摄现场部署照片，让 AI 识别问题

这对开发者来说是巨大的效率提升——以前你需要把图片里的内容手动打成文字描述，现在直接截图丢进去就行。

概念	英文	解释	为什么重要
多模态	Multimodal ^[3:1]	模型能同时处理文字、图片等多种输入	扩展了 AI 的应用场景
视觉语言模型	Vision-Language Model (VLM)	能「看图说话」的模型	GPT-4V、Claude 3 都属于此类

2.4.2 Function Call：从「回答问题」到「执行动作」

2023 年 6 月 13 日，OpenAI 为 GPT-4 和 GPT-3.5 加入了 Function Calling 功能 ^[4]。这是一个关键转折点——模型不再只是「回答问题」，而是可以「执行动作」。

在这之前，LLM 只能输出文字。你问它「今天天气怎么样」，它只能基于训练数据猜测，或者说「我无法获取实时信息」。

有了 Function Call 之后：

text

【没有 Function Call】

用户：今天北京天气怎么样？
AI：抱歉，我无法获取实时天气信息。我的知识截止于 2023 年...


【有 Function Call】

用户：今天北京天气怎么样？

AI（内部决策）：这个问题需要实时数据，我应该调用天气 API
AI（输出）：{
  "function": "get_weather",
  "arguments": { "city": "北京" }
}

系统：调用天气 API，返回结果
AI：今天北京晴，气温 15-23°C，空气质量良好。

Function Call 的工作原理：

text

┌─────────────────────────────────────────────────────────────────────┐
│  Function Call 工作流程                                              │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  1. 开发者定义可用函数                                                │
│     ┌─────────────────────────────────────────────────────────┐    │
│     │ functions: [                                            │    │
│     │   { name: "get_weather", params: { city: string } },    │    │
│     │   { name: "search_docs", params: { query: string } },   │    │
│     │   { name: "send_email", params: { to, subject, body } } │    │
│     │ ]                                                       │    │
│     └─────────────────────────────────────────────────────────┘    │
│                              │                                      │
│                              ▼                                      │
│  2. 用户提问                                                         │
│     "帮我查一下北京的天气，然后发邮件告诉老板"                          │
│                              │                                      │
│                              ▼                                      │
│  3. 模型决策：需要调用哪些函数？                                       │
│     → get_weather({ city: "北京" })                                 │
│     → send_email({ to: "boss@...", subject: "天气", body: "..." })  │
│                              │                                      │
│                              ▼                                      │
│  4. 系统执行函数，返回结果                                            │
│                              │                                      │
│                              ▼                                      │
│  5. 模型整合结果，生成最终回复                                         │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

为什么 Function Call 是 Agent 的基础？

后面我们会讲到 Cursor、Claude Code 这些工具。它们能帮你读文件、写代码、运行命令——这些都是 Function Call 的应用。

读文件 = 调用 read_file 函数
写文件 = 调用 write_file 函数
运行命令 = 调用 execute_command 函数
搜索代码 = 调用 search_codebase 函数

没有 Function Call，就没有 Agent。这就是为什么 2023 年 6 月是 AI 编程的一个分水岭。

概念	英文	解释	为什么重要
Function Call	Function Calling ^[4:1]	模型输出结构化的函数调用请求	Agent 能「执行动作」的基础
工具使用	Tool Use	更通用的说法，包括 Function Call	Anthropic 称之为 Tool Use ^[5]

2.4.3 RAG：让 AI「有据可查」

LLM 有两个根本性问题：

知识截止：训练数据有截止日期，不知道「今天发生了什么」
幻觉：当不确定时，会一本正经地编造

RAG（Retrieval-Augmented Generation，检索增强生成） 是解决这两个问题的关键技术 ^[6]。

RAG 的核心思想：

「与其让模型记住所有知识，不如在需要时去查。」

这就像开卷考试 vs 闭卷考试的区别——RAG 让 AI 从「凭记忆回答」变成「先查资料再回答」。

text

┌─────────────────────────────────────────────────────────────────────┐
│  RAG 工作流程                                                         │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  【没有 RAG】                                                         │
│                                                                     │
│    用户问题 ──────────────────────────▶ LLM ──────▶ 回答              │
│                                        │                            │
│                                        │ (只能靠训练时的记忆)          │
│                                        │                            │
│                                        ▼                            │
│                                   可能产生幻觉                        │
│                                                                     │
│  【有 RAG】                                                           │
│                                                                     │
│    用户问题                                                           │
│        │                                                            │
│        ▼                                                            │
│    ┌──────────────┐                                                 │
│    │   检索器      │  ← 「这个问题需要查什么资料？」                    │
│    │  (Retriever) │                                                 │
│    └──────┬───────┘                                                 │
│           │                                                         │
│           ▼                                                         │
│    ┌──────────────┐                                                 │
│    │   知识库      │  ← 文档、数据库、网页、代码库...                   │
│    │ (Knowledge   │                                                 │
│    │    Base)     │                                                 │
│    └──────┬───────┘                                                 │
│           │                                                         │
│           ▼                                                         │
│    ┌──────────────┐                                                 │
│    │  相关文档片段  │  ← 检索到的 Top-K 结果                           │
│    └──────┬───────┘                                                 │
│           │                                                         │
│           ▼                                                         │
│    ┌────────────────────────────────────────┐                       │
│    │               LLM                       │                       │
│    │                                         │                       │
│    │  Context = 用户问题 + 检索到的文档        │                       │
│    │                                         │                       │
│    └─────────────────┬───────────────────────┘                       │
│                      │                                              │
│                      ▼                                              │
│                 有据可查的回答                                        │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

RAG 的历史背景：

RAG 的概念由 Facebook AI Research（现 Meta AI）在 2020 年提出 ^[6:1]。论文标题是《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》——用检索增强生成来处理知识密集型任务。

当时这篇论文的影响有限，因为 2020 年的 LLM 还不够强。但到了 ChatGPT 时代，RAG 突然变得极其重要——因为大家发现，光靠增大模型参数解决不了「知识更新」和「领域专业性」的问题。

为什么 RAG 比「重新训练」更实用？

方法	成本	时效性	可控性
重新训练模型	极高（数百万美元）	慢（数周到数月）	低（无法精确控制学到什么）
微调（Fine-tuning）	高（数千到数万美元）	中等（数天）	中等
RAG	低（只需维护知识库）	实时（随时更新文档）	高（精确控制信息来源）

RAG 的技术细节：

RAG 系统的核心是向量检索。简单说：

Embedding（嵌入）：把文本转换成「向量」——一串数字，表示文本的「语义位置」
向量数据库：存储所有文档的向量，支持快速相似度搜索
相似度匹配：用户问题也转成向量，找到「语义最接近」的文档

text

┌─────────────────────────────────────────────────────────────────────┐
│  向量检索原理（简化版）                                                │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│    文档入库阶段                                                       │
│    ┌──────────────────────────────────────────────────────────────┐│
│    │                                                              ││
│    │  "Python 是一种编程语言"  ──▶  [0.12, 0.85, 0.33, ...]       ││
│    │  "JavaScript 用于网页开发" ──▶  [0.15, 0.82, 0.41, ...]       ││
│    │  "今天天气很好"          ──▶  [0.91, 0.12, 0.08, ...]       ││
│    │                                    │                        ││
│    │                                    ▼                        ││
│    │                            向量数据库存储                     ││
│    │                                                              ││
│    └──────────────────────────────────────────────────────────────┘│
│                                                                     │
│    检索阶段                                                          │
│    ┌──────────────────────────────────────────────────────────────┐│
│    │                                                              ││
│    │  用户问题: "Python 怎么学？"                                   ││
│    │                    │                                        ││
│    │                    ▼                                        ││
│    │            [0.11, 0.87, 0.35, ...]  (问题向量)               ││
│    │                    │                                        ││
│    │                    ▼                                        ││
│    │            计算与所有文档的「距离」                            ││
│    │                    │                                        ││
│    │                    ▼                                        ││
│    │  最相似: "Python 是一种编程语言" (距离: 0.03)  ✅             ││
│    │  次相似: "JavaScript 用于网页开发" (距离: 0.15)               ││
│    │  不相关: "今天天气很好" (距离: 0.89)                          ││
│    │                                                              ││
│    └──────────────────────────────────────────────────────────────┘│
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

主流向量数据库：

名称	特点	适用场景
Pinecone	托管服务，开箱即用	快速上手，不想自己运维
Weaviate	开源，支持多种模态	需要灵活定制
Milvus	开源，高性能	大规模生产环境
Chroma	轻量级，Python 友好	本地开发、原型验证
pgvector	PostgreSQL 扩展	已有 PostgreSQL 的团队

RAG 在开发工具中的应用：

你可能没意识到，但你每天用的 AI 编程工具，核心就是 RAG：

工具	RAG 应用	知识库
Cursor	`@codebase` 搜索	你的代码库
Claude Code	代码搜索、文件读取	当前项目文件
GitHub Copilot	上下文感知补全	当前文件 + 相关文件
ChatGPT Search	联网搜索	互联网
Perplexity	实时检索 + 引用	互联网 + 学术论文

当你在 Cursor 里说「帮我找到所有处理用户认证的代码」，它做的事情就是：

把你的问题转成向量
在代码库的向量索引中搜索
找到最相关的代码片段
把这些片段塞进 Context，让 LLM 基于真实代码回答

RAG 的局限性：

RAG 不是万能的，它有几个常见问题：

问题	说明	缓解方法
检索质量	找到的文档可能不相关	优化 Embedding 模型、调整检索策略
Context 限制	检索太多文档会超出 Context Window	分块（Chunking）、重排序（Reranking）
信息整合	多个文档的信息可能冲突	让模型标注信息来源
延迟	检索步骤增加响应时间	缓存、预计算

Chunking（分块）策略：

把长文档切成小块是 RAG 的关键步骤。切得不好，检索效果会很差：

text

【不好的分块】—— 按固定字数切割，切断了语义

  "...这个函数用于处理用户登"  |  "录，它会验证密码并生成..."
              ↑                            ↑
         第 1 块结束                    第 2 块开始

  → 检索「用户登录」时可能两块都找不到


【好的分块】—— 按语义边界切割

  "这个函数用于处理用户登录，它会验证密码并生成 JWT token。"

  → 完整的语义单元，检索效果好

常见的分块策略：

按段落：适合结构清晰的文档
按句子 + 重叠：每块包含前一块的最后几句，保持上下文
按代码结构：函数、类、模块为单位
语义分块：用模型判断语义边界

我的理解：

RAG 本质上是在说：「LLM 的强项是理解和推理，不是记忆。让它专注于强项，记忆的事交给检索系统。」

这和人类的工作方式很像——好的专家不是「什么都记得」，而是「知道去哪里查，查到后能理解和应用」。

概念	英文	解释	为什么重要
RAG	Retrieval-Augmented Generation ^[6:2]	先检索相关文档，再让 LLM 基于文档生成回答	解决知识截止和幻觉问题
Embedding	Embedding ^[7]	把文本转换成向量表示	RAG 检索的基础
向量数据库	Vector Database	专门存储和检索向量的数据库	支撑大规模 RAG 系统
Chunking	Chunking	把长文档切分成适合检索的小块	影响 RAG 检索质量

[!TODO] 素材准备
[ ] RAG 原理示意图（可参考 LangChain 文档）
[ ] 向量检索可视化（二维空间中的语义聚类）
[ ] Cursor @codebase 功能演示截图

2.4.4 Claude 的入场

2023 年 3 月 14 日，就在 GPT-4 发布的同一天，Anthropic 发布了 Claude ^[2:1]。这家公司由前 OpenAI 员工创立，包括 GPT-3 论文的第一作者 Dario Amodei。

Claude 的差异化定位是更安全、更诚实。它更愿意说「我不知道」，而不是编造答案。这在当时是一个明显的风格差异。

到 2024 年 3 月，Claude 3 系列发布，Context Window 直接拉到 200K tokens——是 GPT-4 的 6 倍多。这意味着你可以把一整本书丢进去让它分析。

竞争格局的变化：

时间	格局
2022.11	OpenAI 一家独大（ChatGPT）
2023.3	Anthropic 入场（Claude），双雄对峙
2023.12	Google Gemini 发布，三足鼎立
2024	开源模型崛起（Llama、Mistral），百花齐放
2025.1	DeepSeek R1 发布，中国力量入场

2.4.4 我的亲历视角：Prompt 整理期

作者观点

以下是我个人在这段时期的使用经历。

说实话，这段时期我在代码方面的工作不多，所以没有太强的「GPT-4 比 GPT-3.5 强多少」的直接体感。

但我做了一件事：开始整理常用的 prompt。

这个阶段另一个明显的转变是：我渐渐只用 ChatGPT Search，不再用传统搜索引擎了。

以前查资料的流程是：Google 搜索 → 点进去 → 发现不对 → 换个关键词 → 再搜 → 再点。现在变成：直接问 ChatGPT → 它帮你整合多个来源 → 一次性给你答案。

这个习惯转变，其实就是后面 Part 4 会讲的「Context Engineering」的雏形——你开始意识到，如何组织信息给 AI，比单纯「问问题」更重要。

[!TODO] 素材准备
[ ] GPT-4 发布时的官方演示截图（手绘草图生成网页）
[ ] Function Call 工作原理示意图
[ ] GPT-4 vs GPT-3.5 考试成绩对比图
[ ] 补充「我的常用 prompt」例子

2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代

2024 年 9 月 12 日，OpenAI 发布了 o1-preview ^[8]——首个商用推理模型。这个模型和之前所有模型都不一样：它会在回答前先「思考」。

text

┌─────────────────────────────────────────────────────────────────────┐
│  2024.9: o1 — 推理模型的诞生                                          │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│    【传统模型 GPT-4o】                                                │
│                                                                     │
│    ┌──────────┐                           ┌──────────┐             │
│    │  问题输入  │ ──────────────────────▶  │  直接回答  │             │
│    └──────────┘      (立即生成)            └──────────┘             │
│                                                                     │
│    【推理模型 o1】                                                    │
│                                                                     │
│    ┌──────────┐     ┌─────────────────┐     ┌──────────┐           │
│    │  问题输入  │ ──▶ │   思考过程       │ ──▶ │  最终回答  │           │
│    └──────────┘     │  (reasoning     │     └──────────┘           │
│                     │   tokens)       │                             │
│                     │                 │                             │
│                     │  · 尝试多种策略   │                             │
│                     │  · 识别错误      │                             │
│                     │  · 自我纠正      │                             │
│                     └─────────────────┘                             │
│                                                                     │
│    🆕 内置思维链（不需要 prompt 引导）  🆕 复杂推理能力大幅提升          │
│    🆕 数学/编程能力跃升               🆕 会「承认错误」并重新思考        │
│                                                                     │
│    ❌ 速度慢（可能比 GPT-4o 慢 30 倍） ❌ 价格贵                        │
│    ❌ 不适合简单任务                  ❌ 初期不支持图片/文件             │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

o1 的内部代号曾是 "Q*" 和 "Strawberry"，在发布前就引发了大量猜测。

2.5.1 理论基础：思维链 (Chain of Thought)

推理模型的理论基础来自 2022 年 1 月 Google Brain 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》^[9]。作者 Jason Wei 等人发现：让模型展示中间推理步骤，能大幅提升复杂问题的解决能力。

text

【没有思维链】

问题：Roger 有 5 个网球，他又买了 2 罐网球，每罐 3 个。他现在有多少个？
回答：11

【有思维链】

问题：Roger 有 5 个网球，他又买了 2 罐网球，每罐 3 个。他现在有多少个？
思考：Roger 一开始有 5 个球。2 罐网球，每罐 3 个，就是 2 × 3 = 6 个。
      5 + 6 = 11。
回答：11

看起来答案一样？关键在于复杂问题。论文实验显示：在 GSM8K 数学基准测试上，使用思维链的 540B 参数模型达到了当时的最高水平。对于很多推理任务，没有思维链时模型性能随规模增长几乎不变（flat scaling curve），但加入思维链后，性能随模型规模急剧上升。

o1 vs GPT-4o 的本质区别：

GPT-4o 需要你在 prompt 里写「Let's think step by step」来引导它一步步思考。但 o1 内置了这个能力——你不需要引导，它自己就会先思考再回答。事实上，给 o1 加上「Let's think step by step」反而可能干扰它。

概念	英文	解释	为什么重要
思维链	Chain of Thought (CoT) ^[9:1]	让模型展示中间推理步骤	复杂问题解决能力的理论基础
推理 token	Reasoning Tokens	o1 内部「思考」时生成的 token	理解为什么 o1 更慢更贵
推理模型	Reasoning Model	先「思考」再回答的模型	数学/代码/逻辑能力的质变

2.5.2 性能跃升：从「后 10%」到「前 1%」

o1 的性能提升不是渐进式的，而是断崖式跃升：

测试	GPT-4o	o1-preview	o1 (正式版)	说明
AIME 2024 数学竞赛	12% (1.8/15)	44.6%	74-83%	美国高中数学精英赛
Codeforces 编程	—	—	89th percentile	竞技编程平台
物理/化学/生物	—	—	~75-80%	达到博士生水平

AIME 是什么？ American Invitational Mathematics Examination，美国数学邀请赛，是筛选高中数学精英的考试。能拿到 13.9/15 分（o1 使用 1000 样本重排序后的成绩）意味着：进入全美前 500 名高中生，有资格参加 USAMO（美国数学奥林匹克）。

从 GPT-4o 的 12%（1.8/15）到 o1 的 83%（12.5/15），这不是「更好一点」，而是从「随机猜」到「精英水平」的质变。

2.5.3 速度与成本的代价

推理能力的提升是有代价的：

速度：o1 可能比 GPT-4o 慢 30 倍。一个简单问题 GPT-4o 不到 1 秒回答，o1 可能要 2-3 分钟「思考」
价格：o1 的定价显著高于 GPT-4o
适用场景：简单任务用 o1 是浪费——它会过度思考

什么时候用 o1？

✅ 复杂数学推导
✅ 多步骤逻辑问题
✅ 需要深度分析的代码问题
❌ 简单问答
❌ 日常对话
❌ 需要快速响应的场景

2.5.4 DeepSeek R1：中国力量入场

2025 年 1 月 20 日，中国公司 DeepSeek 发布了 R1 ^[10]。这个模型引发了全球震动——不是因为它「又一个中国 AI」，而是因为它的成本效率。

训练成本争议：

说法	金额	来源
「RL 训练成本」	$294,000	Nature 论文，仅强化学习阶段
「完整训练成本」	~$5.87M	包含 DeepSeek V3 预训练
对比：GPT-4	~$100M	业界估算

无论用哪个数字，都比西方模型便宜一个数量级。

一周后的市场震荡：

2025 年 1 月 27 日，DeepSeek 超越 ChatGPT 成为美国 iOS 下载榜第一。同一天：

Nvidia 股价暴跌 17%，单日蒸发近 $6000 亿市值——美国股市史上最大单日市值损失
Nasdaq 跌超 3%，S&P 500 跌 1.5%
特朗普称这是美国科技界的「wake-up call」

投资者的恐慌逻辑是：如果中国能用这么低的成本做出同等性能的模型，那西方科技巨头计划投入的万亿美元 AI 基础设施，还有意义吗？

DeepSeek 的定价优势：

OpenAI CEO Sam Altman 承认：DeepSeek R1 的推理成本比 OpenAI 同类模型便宜 20-50 倍。官方 API 定价：

DeepSeek R1：$0.55/1M 输入，$2.19/1M 输出
比 OpenAI o1 便宜约 27 倍

2.5.5 DeepSeek 的国内体感

在国内，DeepSeek 的体感特别强：

免费：不需要翻墙，不需要付费
国产：没有政策风险
开源：MIT License，可以自己部署
性能：和 o1 基本持平

这让 DeepSeek 迅速成为很多人的第一个 AI 工具。我开头说「很多同事对 AI 的理解还停留在 DeepSeek 的对话框上」，就是这个原因——他们可能跳过了 ChatGPT、跳过了 Claude，直接从 DeepSeek 入门。

这既是好事（降低门槛），也是隐患（可能对 AI 的能力边界有误解）。

2.5.6 我的亲历视角：推理模型改变了什么

作者观点

以下是我对推理模型的个人使用感受。

说实话，o1 刚出来的时候我试了几次就放弃了——太慢了。等它「思考」的时间，我自己都想出答案了。

但后来在处理一些复杂的代码重构问题时，我发现 o1 确实能给出更系统的分析。它不是简单地「生成代码」，而是会先分析问题结构、考虑边界情况、然后给出方案。

DeepSeek R1 出来后，我主要用它来：

处理中文相关的任务（毕竟是中国公司，中文理解更好）
需要推理但不想付太多钱的场景
作为 Claude/GPT 的「第二意见」

一个有趣的观察：推理模型让「prompt engineering」变得没那么重要了。以前你需要精心设计 prompt、加各种引导语，现在直接把问题丢给 o1/R1，它自己就会深度思考。这某种程度上降低了使用门槛，但也让人更容易「过度依赖」。

[!TODO] 素材准备
[ ] CoT 原理示意图（Google 论文 Figure 1）
[ ] o1 vs GPT-4o AIME 成绩对比图
[ ] DeepSeek 下载量截图（App Store 排行榜）
[ ] Nvidia 股价暴跌新闻截图
[ ] DeepSeek vs OpenAI 定价对比表

参考资料

🔬 L1 | GPT-4 | OpenAI - OpenAI 于 2023 年 3 月 14 日发布 GPT-4。 ↩︎ ↩︎
🔬 L1 | Introducing Claude | Anthropic - Anthropic 于 2023 年 3 月发布 Claude。 ↩︎ ↩︎
🔬 L1 | GPT-4V(ision) system card | OpenAI - GPT-4 视觉能力于 2023 年 9 月正式开放。 ↩︎ ↩︎
🔬 L1 | Function calling | OpenAI - OpenAI 于 2023 年 6 月 13 日发布 Function Calling 功能。 ↩︎ ↩︎
🔬 L1 | Tool use | Anthropic - Anthropic 的工具使用文档，功能类似 OpenAI 的 Function Call。 ↩︎
🔬 L1 | Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks | arXiv - Facebook AI Research（现 Meta AI）2020 年发布的 RAG 原始论文，Patrick Lewis 等人。首次提出将检索系统与生成模型结合的范式。 ↩︎ ↩︎ ↩︎
📝 L3 | What are embeddings? | Vicki Boykis - Vicki Boykis 的深度长文，详解 Embedding 的原理、历史和应用，被广泛推荐为入门必读。另见 Embeddings | OpenAI。 ↩︎
🔬 L1 | Introducing OpenAI o1 | OpenAI - OpenAI 于 2024 年 9 月 12 日发布 o1-preview，首个商用推理模型。 ↩︎
🔬 L1 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | arXiv - Google Brain 2022 年 1 月发布，Jason Wei 等人，发现思维链能大幅提升模型推理能力。 ↩︎ ↩︎
🔬 L1 | DeepSeek-R1 | GitHub - DeepSeek 于 2025 年 1 月 20 日发布，开源 MIT License，性能与 o1 相当。 ↩︎

2.4 2023.3: GPT-4 / Claude — 能力跃升 ​

2.4.1 多模态：不只是文字了 ​

2.4.2 Function Call：从「回答问题」到「执行动作」 ​

为什么 Function Call 是 Agent 的基础？ ​

2.4.3 RAG：让 AI「有据可查」 ​

为什么 RAG 比「重新训练」更实用？ ​

2.4.4 Claude 的入场 ​

2.4.4 我的亲历视角：Prompt 整理期 ​

2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代 ​

2.5.1 理论基础：思维链 (Chain of Thought) ​

2.5.2 性能跃升：从「后 10%」到「前 1%」 ​

2.5.3 速度与成本的代价 ​

什么时候用 o1？ ​

2.5.4 DeepSeek R1：中国力量入场 ​

2.5.5 DeepSeek 的国内体感 ​

2.5.6 我的亲历视角：推理模型改变了什么 ​

参考资料 ​

2.4 2023.3: GPT-4 / Claude — 能力跃升

2.4.1 多模态：不只是文字了

2.4.2 Function Call：从「回答问题」到「执行动作」

为什么 Function Call 是 Agent 的基础？

2.4.3 RAG：让 AI「有据可查」

为什么 RAG 比「重新训练」更实用？

2.4.4 Claude 的入场

2.4.4 我的亲历视角：Prompt 整理期

2.5 2024.9: o1 / DeepSeek R1 — 推理模型时代

2.5.1 理论基础：思维链 (Chain of Thought)

2.5.2 性能跃升：从「后 10%」到「前 1%」

2.5.3 速度与成本的代价

什么时候用 o1？

2.5.4 DeepSeek R1：中国力量入场

2.5.5 DeepSeek 的国内体感

2.5.6 我的亲历视角：推理模型改变了什么

参考资料