Fine-tuning · LoRA · PEFT

LLM 微调实战

从零开始掌握大语言模型微调的完整体系。LoRA、QLoRA、Unsloth 高效微调,到 DPO 偏好对齐,再到 GGUF 量化部署,打造属于你的专属模型。

LoRA / QLoRA Unsloth PEFT DPO / RLHF GGUF / AWQ Hugging Face
开始学习 →
📚 10 章节 🔥 LoRA · QLoRA · Unsloth 🚀 从训练到部署

课程目录

系统掌握 LLM 微调全流程,从原理到生产部署

Chapter 01
为什么需要微调:预训练 vs 微调 vs RAG
三种范式的对比决策树,什么场景选微调,显存与成本估算,微调的收益边界。
概念决策框架
Chapter 02
数据集准备:格式、清洗与质量
Alpaca / ShareGPT / Chat Template 格式,数据清洗流水线,去重与质量过滤,构建高质量 SFT 数据集。
数据工程SFT
Chapter 03
LoRA 原理:低秩矩阵分解
矩阵分解的数学直觉,rank / alpha / dropout 超参,target_modules 选取策略,LoRA 与全参数微调的权衡。
LoRAPEFT
Chapter 04
QLoRA 深度:4-bit 量化 + LoRA
NF4 量化原理,bitsandbytes 集成,显存计算公式,gradient checkpointing,在消费级 GPU 上跑 70B 模型。
QLoRA量化
Chapter 05
Unsloth 实战:2× 速度的微调
Unsloth 安装与环境配置,训练脚本详解,学习率调度,梯度累积,Loss 曲线分析与超参调优实战。
Unsloth实战
Chapter 06
指令微调 vs 对话微调:Chat Template
SFT 指令格式设计,不同模型的 Chat Template,系统提示词注入,多轮对话数据构建,微调后效果评估。
指令微调对话
Chapter 07
全参数微调:DeepSpeed & FSDP
ZeRO Stage 1/2/3 原理,FSDP 分布式训练,多机多卡配置,梯度同步策略,显存与速度的 trade-off。
DeepSpeed分布式
Chapter 08
RLHF & DPO:偏好对齐训练
RLHF 三阶段流程,PPO 训练不稳定问题,DPO 直接偏好优化原理,偏好数据集构建,TRL 库实战。
DPORLHF
Chapter 09
模型合并、量化与推理加速
LoRA 权重合并,GGUF / AWQ / GPTQ 量化格式对比,llama.cpp 本地推理,vLLM 部署,推理基准测试。
GGUFvLLM
Chapter 10
实战:微调一个领域专家模型
从法律/医疗/代码领域数据收集,到 Unsloth QLoRA 训练,合并量化,Ollama 本地部署,完整端到端实战。
端到端部署