Reasoning · CoT · o1 · DeepSeek-R1

AI 推理模型开发

深入理解慢思考模型的工作原理。从 Chain-of-Thought 提示工程,到 Claude 扩展思考 API,再到将推理模型嵌入 Agent 构建真正能"想"的系统。

o1 / o3 DeepSeek-R1 Claude Extended Thinking Chain-of-Thought Reasoning Agent
开始学习 →
📚 10 章节 🧠 慢思考 · 推理链 ⚡ 推理 Agent 实战

课程目录

理解推理模型的本质,掌握工程化应用方法

Chapter 01
推理模型的诞生:慢思考 vs 快思考
System 1 / System 2 的 AI 类比,o1 发布的冲击,思维链与答案分离,推理 Token 的本质,与普通 LLM 的本质区别。
概念o1原理
Chapter 02
Chain-of-Thought 工程:让模型说出思考
Zero-shot CoT("Let's think step by step"),Few-shot CoT 示例设计,Self-Consistency 多数投票,Tree-of-Thought 树状搜索。
CoT提示工程
Chapter 03
DeepSeek-R1 解析:强化学习训练推理
GRPO 算法原理,Group Relative Policy Optimization,Cold Start 数据,Aha-Moment 涌现,与 o1 的技术路线对比。
DeepSeek-R1GRPO
Chapter 04
Claude 扩展思考模式:Extended Thinking API
extended_thinking 参数配置,budget_tokens 控制思考深度,流式思考输出解析,thinking block 与 text block 结构,成本计算。
Claude API扩展思考
Chapter 05
推理提示工程:激发高质量思维链
推理模型的提示差异(不需要 CoT 触发词),System Prompt 设计准则,约束输出格式而不限制推理,难题分解策略。
提示工程最佳实践
Chapter 06
推理模型 × Agent:Plan-and-Execute 架构
使用推理模型做规划层,普通模型做执行层,ReWOO 框架解耦规划与执行,推理 Agent 的工具调用策略,避免 over-thinking。
Agent规划
Chapter 07
结构化输出 + 推理:JSON 约束下的思维链
推理模型的结构化输出挑战,thinking 与 JSON 输出的解耦方案,Instructor 库集成,复杂 schema 下的推理稳定性。
结构化输出JSON
Chapter 08
推理模型评估:基准与自定义测试
MATH / AIME / GSM8K / HumanEval 基准解读,LLM-as-Judge 评估方案,构建领域特定评估集,pass@k 采样策略。
评估基准测试
Chapter 09
推理成本控制:Budget Forcing 与缓存
budget_tokens 对质量与成本的影响曲线,Prompt Caching 缓存推理上下文,问题难度分级路由,何时不应该用推理模型。
成本优化缓存
Chapter 10
实战:构建数学解题 + 代码调试推理 Agent
集成 Claude Extended Thinking,多步数学推理器,代码执行反馈循环,自动评分与错误分析,完整端到端推理 Agent。
端到端推理Agent