Evaluation · Testing · Observability

AI Evals 评估体系实战

LLM 应用最缺的一块拼图。从指标设计、数据集构建、LLM-as-Judge,到离线评估、在线 A/B、生产监控的完整方法论,让你的 AI 产品真正"可度量、可迭代、可信赖"。

Braintrust LangSmith Promptfoo RAGAS LLM-as-Judge OpenTelemetry
开始学习 →
📊 10 章节 🔬 从原理到工具链 🚀 从新手到资深

课程目录

系统掌握生产级 LLM 应用的评估方法论

Chapter 01
为什么需要 Evals:从"能跑"到"够好"
为什么 vibe check 不够用、Evals 与传统测试的本质差异、评估金字塔,以及"没有 evals 就不要发布"的行业共识。
概念方法论
Chapter 02
评估指标设计:准确率之外的世界
任务类型与指标映射,精确匹配、语义相似、BLEU/ROUGE/BERTScore,以及为什么生成任务需要"软指标 + 硬约束"的组合拳。
指标度量
Chapter 03
评估数据集构建:Golden Dataset 方法论
从日志采样到合成数据,评估集的大小、分层、难度分布,以及如何避免"自己给自己出题"的数据污染陷阱。
数据采样
Chapter 04
LLM-as-Judge:让模型评估模型
Judge prompt 设计模式(rubric / pairwise / reference-free)、位置偏好与长度偏好的修正、Judge 校准、人类抽检流程。
Judge自动化
Chapter 05
RAG 评估专题:RAGAS 与 4 个关键指标
Faithfulness / Answer Relevancy / Context Precision / Context Recall,RAGAS 库实战,检索 vs 生成问题的定位方法。
RAGRAGAS
Chapter 06
Agent 评估:轨迹、工具调用与任务完成率
Agent 评估的 4 个维度(最终答案 / 工具选择 / 参数正确性 / 轨迹效率),trajectory match,以及多步决策的错误归因。
AgentTrajectory
Chapter 07
工具链实战:Braintrust / LangSmith / Promptfoo
三大平台深度对比与选型,数据集管理、实验版本、回归对比、CI 集成,从零搭建可视化评估看板。
工具链平台
Chapter 08
在线评估与 A/B 测试:生产环境的真话
离线 vs 在线评估差距、Shadow mode、影子流量、基于用户反馈的隐式信号(thumbs up/click/regenerate)、A/B 实验设计。
A/B生产
Chapter 09
可观测性:Traces、Spans 与 OpenTelemetry
LLM 调用的 Trace 结构,OpenTelemetry GenAI 语义约定,成本/延迟/token 监控,Alert 规则设计,事故回溯流程。
ObservabilityOTel
Chapter 10
实战:为客服 Agent 搭一套完整评估
从真实工单采样、构建 200 条 golden set、定义 6 个维度指标、写 LLM Judge、接入 Braintrust、上 CI 看门,完整端到端落地。
端到端落地