Evaluation · Testing · Observability

AI Evals 评估体系实战

LLM 应用最缺的一块拼图。从指标设计、数据集构建、LLM-as-Judge，到离线评估、在线 A/B、生产监控的完整方法论，让你的 AI 产品真正"可度量、可迭代、可信赖"。

Braintrust LangSmith Promptfoo RAGAS LLM-as-Judge OpenTelemetry

开始学习 →

📊 10 章节 🔬 从原理到工具链 🚀 从新手到资深

课程目录

系统掌握生产级 LLM 应用的评估方法论

为什么需要 Evals：从"能跑"到"够好"

为什么 vibe check 不够用、Evals 与传统测试的本质差异、评估金字塔，以及"没有 evals 就不要发布"的行业共识。

概念方法论

评估指标设计：准确率之外的世界

任务类型与指标映射，精确匹配、语义相似、BLEU/ROUGE/BERTScore，以及为什么生成任务需要"软指标 + 硬约束"的组合拳。

评估数据集构建：Golden Dataset 方法论

从日志采样到合成数据，评估集的大小、分层、难度分布，以及如何避免"自己给自己出题"的数据污染陷阱。

LLM-as-Judge：让模型评估模型

Judge prompt 设计模式(rubric / pairwise / reference-free)、位置偏好与长度偏好的修正、Judge 校准、人类抽检流程。

RAG 评估专题：RAGAS 与 4 个关键指标

Faithfulness / Answer Relevancy / Context Precision / Context Recall，RAGAS 库实战，检索 vs 生成问题的定位方法。

Agent 评估：轨迹、工具调用与任务完成率

Agent 评估的 4 个维度(最终答案 / 工具选择 / 参数正确性 / 轨迹效率)，trajectory match，以及多步决策的错误归因。

AgentTrajectory

工具链实战：Braintrust / LangSmith / Promptfoo

三大平台深度对比与选型，数据集管理、实验版本、回归对比、CI 集成，从零搭建可视化评估看板。

工具链平台

在线评估与 A/B 测试：生产环境的真话

离线 vs 在线评估差距、Shadow mode、影子流量、基于用户反馈的隐式信号(thumbs up/click/regenerate)、A/B 实验设计。

可观测性：Traces、Spans 与 OpenTelemetry

LLM 调用的 Trace 结构，OpenTelemetry GenAI 语义约定，成本/延迟/token 监控，Alert 规则设计，事故回溯流程。

ObservabilityOTel

实战：为客服 Agent 搭一套完整评估

从真实工单采样、构建 200 条 golden set、定义 6 个维度指标、写 LLM Judge、接入 Braintrust、上 CI 看门，完整端到端落地。

端到端落地