2025 最新 · 10 章完整指南

Ollama 本地大模型部署

无需 API Key，完全离线运行 Llama 3、Gemma 3、Qwen 2.5 等顶级开源模型。
掌握 Modelfile 定制、REST API 调用与 Python 深度集成，构建完全私有的 AI 应用。

Ollama 0.6+ Llama 3.3 Gemma 3 Qwen 2.5 DeepSeek R1 Python 3.11+

$ ollama run →

bash — 80×24

$ ollama pull llama3.2

pulling manifest...

pulling 966de95ca8a6... 100% ████████████ 2.0 GB

✓ model pulled successfully

$ ollama run llama3.2 "用中文介绍自己"

你好！我是 Llama 3.2，一个由 Meta 开发的大型语言模型...

$

📦 10 章节 🔒 开源免费 💻 完全离线

课程目录

从零安装到生产部署，循序渐进掌握本地大模型全栈技能

Ollama 简介与快速安装

什么是 Ollama，本地运行的隐私与成本优势，多平台安装（macOS/Linux/Windows/Docker），首次拉取模型，系统要求与 GPU 加速。

安装配置快速入门 GPU加速

模型管理与拉取

浏览模型库，理解标签含义，pull/list/show/rm 命令详解，主流模型对比（通用对话、代码、中文、推理），磁盘管理策略。

模型管理 ollama pull 量化等级

Modelfile 自定义模型

Modelfile 完整语法，创建专属系统提示词，调参（temperature/top_p/num_ctx），构建编程助手，ollama create 与 push 发布。

Modelfile 自定义系统提示词

命令行与 CLI 深度使用

交互模式内置命令，多行输入，管道与非交互模式，批量处理 Shell 脚本，会话上下文管理，高效工作流技巧。

CLI Shell脚本批量处理

REST API 完整指南

本地服务架构，/api/generate 流式生成，/api/chat 多轮对话，/api/embeddings 向量嵌入，管理接口，curl 与 Python 示例。

REST API 流式输出向量嵌入

Python 深度集成

官方 ollama-python 库，同步与异步客户端，流式输出实时打印，结构化 JSON 输出，多模态图片输入，完整聊天机器人实战。

Python async 多模态

构建本地 RAG 系统

向量嵌入模型选择，ChromaDB 本地向量库，文档加载→分块→嵌入→存储完整流程，检索增强生成，LangChain/LlamaIndex 集成。

RAG ChromaDB LangChain

Open WebUI 与图形界面

Open WebUI Docker 部署，AnythingLLM 本地知识库，Continue.dev VS Code 代码补全，多款桌面客户端对比，OpenAI API 兼容配置。

Open WebUI Continue.dev GUI工具

性能优化与多 GPU 配置

Apple Silicon Metal 加速，NVIDIA CUDA 配置，CPU 线程优化，量化等级速度/质量权衡，模型并发管理，tokens/s 性能监控。

性能优化 GPU加速量化

生产部署与安全

局域网暴露配置，Nginx 反向代理与 HTTPS，API 认证，Docker 资源限制，systemd 自动启动，Prometheus 监控，n8n/Dify 集成。

生产部署 Nginx 安全认证

为什么选择本地部署

Ollama 让每个开发者都能拥有完全属于自己的 AI 基础设施

🔒

隐私安全

所有数据在本地处理，不经过任何第三方服务器。医疗、法律、金融等敏感场景的首选方案。

💰

零 API 费用

一次下载，无限使用。无论请求量多大，成本始终为零，特别适合高频调用场景。

📦

50+ 开源模型

Llama 3.3、Gemma 3、Qwen 2.5、DeepSeek R1、Mistral、Phi-4 等，覆盖对话、代码、推理各类需求。

🔌

OpenAI API 兼容

与 OpenAI API 格式完全兼容，现有基于 ChatGPT 的应用只需更改 base_url 即可无缝切换至本地模型。