Fine-tuning · LoRA · PEFT

LLM 微调实战

从零开始掌握大语言模型微调的完整体系。LoRA、QLoRA、Unsloth 高效微调，到 DPO 偏好对齐，再到 GGUF 量化部署，打造属于你的专属模型。

LoRA / QLoRA Unsloth PEFT DPO / RLHF GGUF / AWQ Hugging Face

开始学习 →

📚 10 章节 🔥 LoRA · QLoRA · Unsloth 🚀 从训练到部署

课程目录

系统掌握 LLM 微调全流程，从原理到生产部署

为什么需要微调：预训练 vs 微调 vs RAG

三种范式的对比决策树，什么场景选微调，显存与成本估算，微调的收益边界。

概念决策框架

数据集准备：格式、清洗与质量

Alpaca / ShareGPT / Chat Template 格式，数据清洗流水线，去重与质量过滤，构建高质量 SFT 数据集。

数据工程SFT

LoRA 原理：低秩矩阵分解

矩阵分解的数学直觉，rank / alpha / dropout 超参，target_modules 选取策略，LoRA 与全参数微调的权衡。

QLoRA 深度：4-bit 量化 + LoRA

NF4 量化原理，bitsandbytes 集成，显存计算公式，gradient checkpointing，在消费级 GPU 上跑 70B 模型。

Unsloth 实战：2× 速度的微调

Unsloth 安装与环境配置，训练脚本详解，学习率调度，梯度累积，Loss 曲线分析与超参调优实战。

指令微调 vs 对话微调：Chat Template

SFT 指令格式设计，不同模型的 Chat Template，系统提示词注入，多轮对话数据构建，微调后效果评估。

指令微调对话

全参数微调：DeepSpeed & FSDP

ZeRO Stage 1/2/3 原理，FSDP 分布式训练，多机多卡配置，梯度同步策略，显存与速度的 trade-off。

DeepSpeed分布式

RLHF & DPO：偏好对齐训练

RLHF 三阶段流程，PPO 训练不稳定问题，DPO 直接偏好优化原理，偏好数据集构建，TRL 库实战。

模型合并、量化与推理加速

LoRA 权重合并，GGUF / AWQ / GPTQ 量化格式对比，llama.cpp 本地推理，vLLM 部署，推理基准测试。

实战：微调一个领域专家模型

从法律/医疗/代码领域数据收集，到 Unsloth QLoRA 训练，合并量化，Ollama 本地部署，完整端到端实战。

端到端部署