BerriAI · 100+ Providers · OpenAI-Compatible

LiteLLM 多模型路由实战

一行代码调 100+ 家 LLM;Router 做负载均衡与 fallback;Proxy 做团队网关、Virtual Keys、预算配额;缓存、重试、观测、成本追踪一条龙。让"换模型"从一周变成改一行 YAML。

Python SDK Proxy Server Router OpenAI-Compat 100+ Providers 成本追踪

12 章 · 深度讲透从 SDK 到生产 Proxy 多模型 / 多团队 / 多租户

为什么要学 LiteLLM

AI 产品的最大技术债不是某个模型,而是"对某家 API 的硬耦合"

你今天用 GPT-4,三个月后想切 Claude 做 A/B,半年后想把分类任务挪到 Gemini Flash 降本,又过两个月合规要求把敏感请求走 Azure 或私有化的 Ollama——每一次都改 SDK、改参数、改流式协议、改工具调用格式、改计费脚本。

LiteLLM 的核心主张就一句话:所有 LLM 都伪装成 OpenAI,然后你只写 OpenAI 一家的代码。它背后做的是跨 100+ provider 的参数映射、错误归一、流式格式统一、工具调用互操作、token 计费翻译。这门教程不只教你 API 用法,而是把它当一个"多模型网关"来讲透:从单机 SDK 到千团队 Proxy,从 10 QPS 到 10K QPS,从"能跑"到"敢换模型不用重写代码"。

课程大纲

12 章 · 从 SDK 调用到企业 Proxy 网关

Chapter 01 为什么需要 provider 抽象层多模型时代的痛点 · 厂商锁定的代价 · 为什么 OpenAI 格式成了事实标准 · LiteLLM 解决的三件事:参数映射、错误归一、计费翻译

Chapter 02 统一的 completion() 接口一行代码调 OpenAI/Claude/Gemini · model 字符串的 provider 前缀约定 · messages/system/temperature 的跨厂商映射 · 返回对象结构拆解

Chapter 03 provider 全家桶配置 OpenAI · Anthropic · Gemini · Azure · AWS Bedrock · VertexAI · Ollama · Together · Groq · OpenRouter · 国内厂商 (通义/DeepSeek/智谱) 的认证与专属参数

Chapter 04 流式与异步 stream=True 的 SSE 统一协议 · acompletion 并发 · chunk 的 delta/finish_reason 规范 · 异步背压与 httpx client 复用 · 流式工具调用的坑

Chapter 05 工具调用的跨厂商统一 OpenAI tools 格式 · Claude tool_use / Gemini function_declarations 的归一 · 多轮 tool_call_id 追踪 · parallel_tool_calls · strict mode 的厂商差异

Chapter 06 结构化输出与多模态 response_format 的 JSON mode / JSON schema · Pydantic 集成 · vision 图片输入 · audio 音频输入 · 各厂商多模态能力差异矩阵

Chapter 07 Router:负载均衡与容灾 model_list 多部署 · simple-shuffle / least-busy / usage-based 路由策略 · fallback 链 · retry/cooldown · latency-based · tag-based · priority queue

Chapter 08 缓存策略精确缓存 vs 语义缓存 · Redis/S3/in-memory/dual-layer 配置 · key 的决定因素 · 缓存命中时的 stream 仿真 · 什么内容不该缓存

Chapter 09 成本追踪与预算自带价目表 model_prices.json · 自建私有报价 · usage 对象精度 · budget/rate_limit/cooldown 三件套 · Spend 报表 · 按 user/team/api_key 分组

Chapter 10 LiteLLM Proxy Server 独立网关模式 · Virtual Keys · 团队/用户/组织三级权限 · Admin UI · OpenAI 兼容的 /v1/chat/completions · Docker/Helm 部署 · Postgres 后端

Chapter 11 可观测与日志 success/failure callbacks · Langfuse/Helicone/Arize 集成 · Prometheus metrics · OpenTelemetry Trace · 日志脱敏 · 错误分类与告警

ObservabilityLangfuse

Chapter 12 生产最佳实践秘钥 KMS/Vault · 分层限流 (RPM/TPM/预算) · 灰度发布 · 降级演练 · SLO 设计 · 多区域部署 · 合规数据主权 · 一份真实的生产 config.yaml