Kahneman 的双系统理论
诺贝尔经济学奖得主 Daniel Kahneman 在《思考,快与慢》中提出人类认知的两种模式,这个框架意外地成为理解推理模型最好的类比:
System 1(快思考)
- 自动、直觉、无意识
- 速度快,几乎不消耗认知资源
- 擅长模式识别(看到猫就知道是猫)
- 容易出现认知偏差
- 类比:普通 LLM 的单次推理
System 2(慢思考)
- 分析、理性、有意识
- 速度慢,需要大量认知资源
- 擅长逻辑推导、多步骤问题
- 可以纠正 System 1 的错误
- 类比:o1 / DeepSeek-R1 的推理过程
普通 LLM(GPT-4、Claude 3.5)本质上是 System 1 — 它们在毫秒级内生成 token,依靠训练数据中习得的"直觉"。对于"法国首都在哪"这样的问题,System 1 绰绰有余。
但面对需要多步推导的问题(数学竞赛、复杂代码审查、多跳逻辑推理),System 1 会犯直觉性错误。推理模型通过让模型在回答之前"想一想",引入了 System 2 机制。
推理模型的关键创新:思考与答案分离
传统 LLM 的输出结构:
用户输入 → [模型权重] → 输出答案
(单次前向传播,无显式中间步骤)
推理模型的输出结构:
用户输入 → [模型权重] → <thinking>
中间推理过程(用户可见/不可见)
· 问题分解
· 尝试与验证
· 错误纠正
· 策略调整
</thinking>
→ 最终答案(简洁、准确)
推理 Token 的本质
推理模型在生成最终答案前会产生大量"推理 Token"。这些 token 是模型的"草稿纸",用于逐步推导而非直接输出。关键在于:这些中间步骤让模型有机会在输出错误答案前纠正自己。
o1 发布的冲击:数字说话
2024 年 9 月 OpenAI o1 发布时,几个关键数据让业界震惊:
AIME 2024 数学竞赛
GPT-4o 得分约 12%,o1 得分 83%(pass@1)。这道竞赛题目难到美国高中数学联赛选手也难以全部答对,o1 的提升幅度令人震惊。
Codeforces 编程竞赛
o1 达到 Codeforces 89 百分位(约 candidate master 水平),而 GPT-4o 仅 11 百分位。这是质的飞跃,不是量的提升。
博士级科学问题(GPQA Diamond)
o1 得分 78%,超过了顶尖人类专家(74%)。首次出现 AI 在严谨科学推理上超越专家的基准测试。
推理模型的技术路径
目前推理模型的训练主要有两条路径:
路径 A:监督学习 + 强化学习(o1 风格)
1. 收集高质量 CoT 数据(人工标注或蒸馏)
2. SFT 训练让模型学会"写草稿"
3. RLHF/GRPO 强化学习:奖励正确推理过程
4. 结果验证器(对于有标准答案的题目)
路径 B:纯强化学习(DeepSeek-R1 风格)
1. 从基础模型出发
2. GRPO 算法:以最终答案的正确性为奖励信号
3. 模型自发"涌现"出推理行为(Aha-Moment)
4. 无需人工标注中间推理步骤
DeepSeek-R1 的 Aha-Moment
DeepSeek 团队在论文中描述了一个令人惊叹的现象:模型在训练中途突然"学会"在答题前花更多时间思考,并开始使用"Wait, let me reconsider..."这样的自我纠正语言——这是完全自发涌现的,没有被显式教导。
推理模型 vs 普通 LLM:使用场景对比
| 场景 | 普通 LLM | 推理模型 | 推荐 |
|---|---|---|---|
| 简单问答、文本生成 | 快速、低成本 | 过度杀伤,浪费 token | 普通 LLM |
| 多步数学推导 | 容易出错 | 显著提升 | 推理模型 |
| 复杂代码分析 | 中等 | 更好 | 推理模型 |
| 创意写作 | 更自然 | 过于理性 | 普通 LLM |
| 科学推导/逻辑谜题 | 差 | 领先 | 推理模型 |
| 实时对话 | 低延迟 | 延迟高(思考时间) | 普通 LLM |
2024–2025 推理模型时间线
2024-09 OpenAI o1-preview / o1-mini 发布,推理模型元年
2024-12 OpenAI o1 正式版发布,o1 pro 面向研究
2025-01 DeepSeek-R1 开源发布,引爆国内外开源社区
2025-01 QwQ-32B 开源,性能接近 o1
2025-02 Anthropic Claude 3.7 Sonnet + Extended Thinking 发布
2025-03 Google Gemini 2.0 Flash Thinking 可用
2025-04 OpenAI o3 发布,ARC-AGI 基准突破
2025-06 Claude 4.5 / Sonnet 4.6 继续强化推理能力
本章小结
推理模型通过在回答前生成大量中间推理 token,实现了 System 2 慢思考。这一机制在数学、代码、逻辑推理等需要多步推导的任务上带来质的飞跃。下一章进入 Chain-of-Thought 工程实践。