Chapter 01

推理模型的诞生:慢思考 vs 快思考

2024 年 9 月,OpenAI o1 的发布重新定义了 AI 能力的边界。理解它背后的思想,是掌握推理模型开发的第一步。

Kahneman 的双系统理论

诺贝尔经济学奖得主 Daniel Kahneman 在《思考,快与慢》中提出人类认知的两种模式,这个框架意外地成为理解推理模型最好的类比:

System 1(快思考)

  • 自动、直觉、无意识
  • 速度快,几乎不消耗认知资源
  • 擅长模式识别(看到猫就知道是猫)
  • 容易出现认知偏差
  • 类比:普通 LLM 的单次推理

System 2(慢思考)

  • 分析、理性、有意识
  • 速度慢,需要大量认知资源
  • 擅长逻辑推导、多步骤问题
  • 可以纠正 System 1 的错误
  • 类比:o1 / DeepSeek-R1 的推理过程

普通 LLM(GPT-4、Claude 3.5)本质上是 System 1 — 它们在毫秒级内生成 token,依靠训练数据中习得的"直觉"。对于"法国首都在哪"这样的问题,System 1 绰绰有余。

但面对需要多步推导的问题(数学竞赛、复杂代码审查、多跳逻辑推理),System 1 会犯直觉性错误。推理模型通过让模型在回答之前"想一想",引入了 System 2 机制。

推理模型的关键创新:思考与答案分离

传统 LLM 的输出结构:

用户输入 → [模型权重] → 输出答案 (单次前向传播,无显式中间步骤)

推理模型的输出结构:

用户输入 → [模型权重] → <thinking> 中间推理过程(用户可见/不可见) · 问题分解 · 尝试与验证 · 错误纠正 · 策略调整 </thinking> → 最终答案(简洁、准确)
推理 Token 的本质 推理模型在生成最终答案前会产生大量"推理 Token"。这些 token 是模型的"草稿纸",用于逐步推导而非直接输出。关键在于:这些中间步骤让模型有机会在输出错误答案前纠正自己

o1 发布的冲击:数字说话

2024 年 9 月 OpenAI o1 发布时,几个关键数据让业界震惊:

AIME 2024 数学竞赛
GPT-4o 得分约 12%,o1 得分 83%(pass@1)。这道竞赛题目难到美国高中数学联赛选手也难以全部答对,o1 的提升幅度令人震惊。
Codeforces 编程竞赛
o1 达到 Codeforces 89 百分位(约 candidate master 水平),而 GPT-4o 仅 11 百分位。这是质的飞跃,不是量的提升。
博士级科学问题(GPQA Diamond)
o1 得分 78%,超过了顶尖人类专家(74%)。首次出现 AI 在严谨科学推理上超越专家的基准测试。

推理模型的技术路径

目前推理模型的训练主要有两条路径:

路径 A:监督学习 + 强化学习(o1 风格) 1. 收集高质量 CoT 数据(人工标注或蒸馏) 2. SFT 训练让模型学会"写草稿" 3. RLHF/GRPO 强化学习:奖励正确推理过程 4. 结果验证器(对于有标准答案的题目) 路径 B:纯强化学习(DeepSeek-R1 风格) 1. 从基础模型出发 2. GRPO 算法:以最终答案的正确性为奖励信号 3. 模型自发"涌现"出推理行为(Aha-Moment) 4. 无需人工标注中间推理步骤
DeepSeek-R1 的 Aha-Moment DeepSeek 团队在论文中描述了一个令人惊叹的现象:模型在训练中途突然"学会"在答题前花更多时间思考,并开始使用"Wait, let me reconsider..."这样的自我纠正语言——这是完全自发涌现的,没有被显式教导。

推理模型 vs 普通 LLM:使用场景对比

场景普通 LLM推理模型推荐
简单问答、文本生成快速、低成本过度杀伤,浪费 token普通 LLM
多步数学推导容易出错显著提升推理模型
复杂代码分析中等更好推理模型
创意写作更自然过于理性普通 LLM
科学推导/逻辑谜题领先推理模型
实时对话低延迟延迟高(思考时间)普通 LLM

2024–2025 推理模型时间线

2024-09 OpenAI o1-preview / o1-mini 发布,推理模型元年 2024-12 OpenAI o1 正式版发布,o1 pro 面向研究 2025-01 DeepSeek-R1 开源发布,引爆国内外开源社区 2025-01 QwQ-32B 开源,性能接近 o1 2025-02 Anthropic Claude 3.7 Sonnet + Extended Thinking 发布 2025-03 Google Gemini 2.0 Flash Thinking 可用 2025-04 OpenAI o3 发布,ARC-AGI 基准突破 2025-06 Claude 4.5 / Sonnet 4.6 继续强化推理能力
本章小结 推理模型通过在回答前生成大量中间推理 token,实现了 System 2 慢思考。这一机制在数学、代码、逻辑推理等需要多步推导的任务上带来质的飞跃。下一章进入 Chain-of-Thought 工程实践。