Reasoning · CoT · o1 · DeepSeek-R1

AI 推理模型开发

深入理解慢思考模型的工作原理。从 Chain-of-Thought 提示工程，到 Claude 扩展思考 API，再到将推理模型嵌入 Agent 构建真正能"想"的系统。

o1 / o3 DeepSeek-R1 Claude Extended Thinking Chain-of-Thought Reasoning Agent

开始学习 →

📚 10 章节 🧠 慢思考 · 推理链 ⚡ 推理 Agent 实战

课程目录

理解推理模型的本质，掌握工程化应用方法

推理模型的诞生：慢思考 vs 快思考

System 1 / System 2 的 AI 类比，o1 发布的冲击，思维链与答案分离，推理 Token 的本质，与普通 LLM 的本质区别。

Chain-of-Thought 工程：让模型说出思考

Zero-shot CoT（"Let's think step by step"），Few-shot CoT 示例设计，Self-Consistency 多数投票，Tree-of-Thought 树状搜索。

CoT提示工程

DeepSeek-R1 解析：强化学习训练推理

GRPO 算法原理，Group Relative Policy Optimization，Cold Start 数据，Aha-Moment 涌现，与 o1 的技术路线对比。

DeepSeek-R1GRPO

Claude 扩展思考模式：Extended Thinking API

extended_thinking 参数配置，budget_tokens 控制思考深度，流式思考输出解析，thinking block 与 text block 结构，成本计算。

Claude API扩展思考

推理提示工程：激发高质量思维链

推理模型的提示差异（不需要 CoT 触发词），System Prompt 设计准则，约束输出格式而不限制推理，难题分解策略。

提示工程最佳实践

推理模型 × Agent：Plan-and-Execute 架构

使用推理模型做规划层，普通模型做执行层，ReWOO 框架解耦规划与执行，推理 Agent 的工具调用策略，避免 over-thinking。

结构化输出 + 推理：JSON 约束下的思维链

推理模型的结构化输出挑战，thinking 与 JSON 输出的解耦方案，Instructor 库集成，复杂 schema 下的推理稳定性。

结构化输出JSON

推理模型评估：基准与自定义测试

MATH / AIME / GSM8K / HumanEval 基准解读，LLM-as-Judge 评估方案，构建领域特定评估集，pass@k 采样策略。

评估基准测试

推理成本控制：Budget Forcing 与缓存

budget_tokens 对质量与成本的影响曲线，Prompt Caching 缓存推理上下文，问题难度分级路由，何时不应该用推理模型。

成本优化缓存

实战：构建数学解题 + 代码调试推理 Agent

集成 Claude Extended Thinking，多步数学推理器，代码执行反馈循环，自动评分与错误分析，完整端到端推理 Agent。

端到端推理Agent