Local LLM · Offline · 2026

Ollama 本地大模型部署

Ollama 把 Llama 3.3 / Gemma 3 / Qwen 2.5 / DeepSeek R1 / Mistral 等顶级开源模型打包成一行命令可跑的本地服务——无需 API Key、无需联网、数据不出本机。掌握 Modelfile 定制、REST API 与 Python 深度集成,构建完全私有的 AI 基础设施。

10 章 · 深度讲透 离线 / GPU 加速 REST API · Python SDK

为什么跑本地模型

隐私、成本、延迟、可控性——四个理由让开发者把 LLM 搬回自己机器

云 API 用起来爽,但账单会膨胀、数据会外流、合规会卡壳、网络抖动会 504。医疗、法律、金融这些敏感场景根本不能把提示词送到别人家的机器;高频调用的后台批处理,每月几千刀的 token 费也扛不住;网络不稳的边缘设备、内网隔离的企业环境,更是连 API 都够不到。

Ollama 的主张只有一句:一条 ollama run 让顶级开源模型跑在你自己的电脑上。背后帮你做的事很多——模型格式统一(GGUF)、量化版本自动选择、GPU 加速(Metal/CUDA/ROCm)、REST 服务自举、OpenAI 兼容协议、Modelfile 定制、并发调度。这门教程从首次安装讲到生产部署,十章把本地 LLM 当成一个真实基础设施来讲透。

课程大纲

10 章 · 从零安装到生产部署

Chapter 01 Ollama 简介与快速安装 什么是 Ollama,本地运行的隐私与成本优势,多平台安装(macOS/Linux/Windows/Docker),首次拉取模型,系统要求与 GPU 加速。
安装配置快速入门GPU加速
Chapter 02 模型管理与拉取 浏览模型库,理解标签含义,pull/list/show/rm 命令详解,主流模型对比(通用对话、代码、中文、推理),磁盘管理策略。
模型管理ollama pull量化等级
Chapter 03 Modelfile 自定义模型 Modelfile 完整语法,创建专属系统提示词,调参(temperature/top_p/num_ctx),构建编程助手,ollama create 与 push 发布。
Modelfile自定义系统提示词
Chapter 04 命令行与 CLI 深度使用 交互模式内置命令,多行输入,管道与非交互模式,批量处理 Shell 脚本,会话上下文管理,高效工作流技巧。
CLIShell脚本批量处理
Chapter 05 REST API 完整指南 本地服务架构,/api/generate 流式生成,/api/chat 多轮对话,/api/embeddings 向量嵌入,管理接口,curl 与 Python 示例。
REST API流式输出向量嵌入
Chapter 06 Python 深度集成 官方 ollama-python 库,同步与异步客户端,流式输出实时打印,结构化 JSON 输出,多模态图片输入,完整聊天机器人实战。
Pythonasync多模态
Chapter 07 构建本地 RAG 系统 向量嵌入模型选择,ChromaDB 本地向量库,文档加载→分块→嵌入→存储完整流程,检索增强生成,LangChain/LlamaIndex 集成。
RAGChromaDBLangChain
Chapter 08 Open WebUI 与图形界面 Open WebUI Docker 部署,AnythingLLM 本地知识库,Continue.dev VS Code 代码补全,多款桌面客户端对比,OpenAI API 兼容配置。
Open WebUIContinue.devGUI工具
Chapter 09 性能优化与多 GPU 配置 Apple Silicon Metal 加速,NVIDIA CUDA 配置,CPU 线程优化,量化等级速度/质量权衡,模型并发管理,tokens/s 性能监控。
性能优化GPU加速量化
Chapter 10 生产部署与安全 局域网暴露配置,Nginx 反向代理与 HTTPS,API 认证,Docker 资源限制,systemd 自动启动,Prometheus 监控,n8n/Dify 集成。
生产部署Nginx安全认证

为什么选择本地部署

Ollama 让每个开发者都能拥有完全属于自己的 AI 基础设施

隐私安全 · 零 API 费用

  • 所有数据在本地处理,不经过任何第三方服务器
  • 医疗、法律、金融等敏感场景的首选方案
  • 一次下载,无限使用,无 token 计费
  • 特别适合高频调用的后台批处理场景

50+ 开源模型 · OpenAI 兼容

  • Llama 3.3 / Gemma 3 / Qwen 2.5 / DeepSeek R1 全覆盖
  • Mistral / Phi-4 / CodeLlama 覆盖对话/代码/推理
  • 与 OpenAI API 格式完全兼容的 /v1 端点
  • LangChain / LlamaIndex / Dify 原生支持