第 10 章 · 视频生成 · AnimateDiff / SVD / Hunyuan / Wan

一、视频生成的两个流派

2D + Motion Module(AnimateDiff 流派)

在现有 SD1.5/SDXL 上加"时间维度注意力模块"——复用图像模型,给帧与帧之间加入连贯性。轻量、生态丰富,质量中等。

原生视频模型(Sora / Hunyuan / Wan / SVD)

从零训的视频扩散模型,时间维度一等公民。质量高、运动自然,但模型大、显存贵。

二、模型家族速查

模型	分辨率 × 帧	显存	质量	备注
AnimateDiff v3(SD1.5)	512×512 × 16	6-8GB	★★★	老牌,LoRA 生态丰富
AnimateDiff-Lightning	同上,4 步出	6-8GB	★★★	2024 加速版
Hotshot-XL(SDXL 动画)	1024×576 × 8	12GB	★★★	SDXL 版 AnimateDiff
SVD(Stable Video Diffusion)	1024×576 × 14/25	14-20GB	★★★★	2023 末,img2video
CogVideoX 5B	720×480 × 49	12-24GB	★★★★	清华系,质量好
Hunyuan Video	720×1280 × 129	60GB+ / 量化 12GB	★★★★★	腾讯,2024 年底开源王者
Wan 2.1 / 2.2	480p-720p × 5-10s	量化 12-16GB	★★★★★	阿里,质量接近 Sora
Mochi-1	480×848 × 163	60GB+	★★★★	Genmo,首个开源巨型 DiT 视频
LTX-Video	768×512 × 121	12GB	★★★★	Lightricks,实时生成取向

2025 主流:Hunyuan / Wan 是质量天花板,LTX-Video 是实时之王,AnimateDiff 仍活跃于动漫二创。

三、AnimateDiff 工作流(入门最友好)

安装

Manager 装 ComfyUI-AnimateDiff-Evolved(Kosinkadink)
Manager 装 ComfyUI-VideoHelperSuite(视频输入输出)
Motion Module 模型放 models/animatediff_models/:
· mm_sd15_v3.safetensors(SD1.5 主力)
· animatediffLightning_v20.safetensors(4 步加速版)
· hotshotxl_mm.safetensors(SDXL 版)
Motion LoRA 放 models/animatediff_motion_lora/:zoom_in/zoom_out/pan_left/rolling 等镜头运动

工作流

Load Checkpoint(SD1.5 动漫模型) │ ▼ AnimateDiff Loader ──▶ MODEL'(加了 Motion Module 的模型) │ ├─ model_name = mm_sd15_v3 ├─ beta_schedule = lcm >> linear(根据 sampler) ├─ context_length = 16(一次生成 16 帧) CLIP Text Encode(正/负 prompt) │ ▼ Empty Latent Image(512×512, batch=16)── frames 数 │ ▼ KSampler(dpmpp_2m_sde, karras, 25 步, cfg=7) │ ▼ VAE Decode(逐帧) │ ▼ Video Combine(拼成 mp4/gif,fps=8-12)

16 帧 → 更长视频:Context Batch

AnimateDiff 原生只能 16 帧。想做 64/128 帧:用 Uniform Context Options——把长视频切成 16 帧窗口,窗口之间重叠 4-8 帧,分段去噪后拼接。ComfyUI-AnimateDiff-Evolved 内置支持,连上 Context Options 节点即可。

加 ControlNet

视频版 ControlNet 和图像版一样用——但 CN 输入也是视频(比如 DWPose 对整个视频做姿态检测):

Video Input(舞蹈视频) ──▶ DWPose Preprocessor(逐帧) ──▶ 姿态图序列
                                                            │
                                                            ▼
                                              Apply ControlNet(strength=1.0)
                                                            │
                  配合 AnimateDiff Motion Module + IP-Adapter(人物)
                                                            │
                                                            ▼
                                                    同姿态的角色动画

这是 B 站 / TikTok 上"换舞蹈主角"视频的主流做法。

四、Stable Video Diffusion(img2video)

SVD 是 Stability AI 2023 末推出的图像到视频模型——给一张图,生成 14 或 25 帧的短视频,带上自然的相机运动。

工作流

Load Image(起始帧) │ ▼ SVD_img2vid_Conditioning ─┐ ├─ motion_bucket_id = 127(运动强度,0-255) ├─ augmentation_level = 0.0(随机性,0-1) └─ fps = 6(decode 帧率) ▼ Load Checkpoint(svd_xt.safetensors)── MODEL │ ▼ KSampler(euler, 20 步, cfg=2.5) │ ▼ VAE Decode(视频 VAE 专用) │ ▼ Video Combine

SVD 两个版本:

svd.safetensors:14 帧版,576×1024
svd_xt.safetensors:25 帧版(4s @ 6fps),质量更好,显存吃 16GB+

五、Hunyuan Video(2024 年底王者)

腾讯开源,13B 参数,原生文生视频。质量接近 Runway Gen-3 / Kling。

硬件门槛

版本	显存	速度(5s 视频)
FP16 原版	60GB+	H100 上 2-5 分钟
FP8 量化	24GB	4090 上 8-15 分钟
GGUF Q4/Q5	12GB	3060 上 20-40 分钟

工作流

Manager 装:ComfyUI-HunyuanVideoWrapper 或原生 ComfyUI 支持

模型文件:
  models/diffusion_models/hunyuan_video_t2v_720p_bf16.safetensors
  models/text_encoders/llava_llama3_fp16.safetensors(LLaMA-3 based)
  models/text_encoders/clip_l.safetensors
  models/vae/hunyuan_video_vae_bf16.safetensors

核心节点:
HunyuanVideo Sampler
  ├─ width=720, height=1280
  ├─ num_frames=65(~2s @ 24fps) / 129(~5s)
  ├─ steps=30
  ├─ guidance=6.0
  └─ flow_shift=7.0(视频专用流匹配)

Hunyuan 的 prompt 技巧
——Hunyuan 用 LLaMA-3 做 text encoder,理解力极强。写长段自然语言描述"镜头怎么动、人物做什么、光影怎么变"——不是标签风。例:"A woman in red dress slowly walks towards the camera, camera slowly tilts up to reveal a sunset sky, cinematic lighting, 35mm film grain, warm color grading."

六、Wan 2.1 / 2.2(阿里,2024-2025)

Wan(通义万相)阿里视频模型,开源版本分 T2V 文生视频、I2V 图生视频、T2I 图像三路。

Wan 2.1 / 2.2 速览

版本	类型	参数	特点
Wan 2.1 T2V 14B	文生视频	14B	480p / 720p,5-10s
Wan 2.1 I2V 14B	图生视频	14B	图+prompt → 视频
Wan 2.1 T2V 1.3B	轻量文生视频	1.3B	8GB 显卡可跑
Wan 2.2 T2V-A14B	MoE 结构	专家激活 ≈ 14B	2025 升级,高低噪 MoE
Wan 2.2 I2V-A14B	MoE 图生视频	同上	质量接近闭源 Sora
Wan 2.2 TI2V-5B	统一文/图视频	5B	消费级 5B 最强

ComfyUI 原生支持 Wan,有 WanVideo Sampler / WanImageToVideo 等节点,Manager 里装 ComfyUI-WanVideoWrapper。

七、LTX-Video(实时取向)

Lightricks 2024 底发布 LTX-Video——2B DiT,专攻"实时生成"。在 4090 上生成 5s 720p 视频只要 4-8 秒(比 real-time 还快)。

质量比 Hunyuan/Wan 低一些,但在"短时长 + 速度"场景无敌
支持 t2v、i2v、keyframe-guided(指定首尾帧)
ComfyUI 原生支持

八、VRAM 实战经验

12GB 显卡(3060 / 4070)跑视频

AnimateDiff + SD1.5:16 帧 @ 512,原生跑
Hunyuan GGUF Q4:75 帧 @ 720×480,约 15 分钟
Wan 2.1 1.3B:5s 480p,约 8 分钟
LTX-Video:5s 768×512,约 30 秒

24GB 显卡(3090 / 4090)

AnimateDiff SDXL / Hotshot:可以 1024×576 × 16 帧
SVD xt:14-25 帧 1024×576 原生
Hunyuan FP8:129 帧 720×1280,约 8-12 分钟
Wan 2.1 14B FP8:原生可跑

视频生成的耐心学
——10GB 显存跑 Hunyuan 5s 视频约 20-40 分钟。这不是"等等就好",而是"你得规划好 prompt,一次跑对",浪费 40 分钟发现 prompt 写错了会崩溃。建议:先用 AnimateDiff / LTX 快速试 prompt,定稿后再用 Hunyuan/Wan 最终渲染。

九、视频常用后期

帧插值(FILM / RIFE)

AI 视频原生只有 8-16 fps,看着卡。用 ComfyUI-Frame-Interpolation 的 FILM/RIFE 节点插成 24/30/60fps:

视频帧序列(8fps) ──▶ RIFE VFI(multiplier=3) ──▶ 24fps 平滑视频

分辨率提升

视频 ESRGAN 放大——逐帧或用专用时序模型 Real-ESRGAN-x4plus_anime_6B:

视频帧 ──▶ Upscale Image (using Model, 2x) ──▶ 高清视频帧
(建议用 tile 放大模式,避免每帧 OOM)

首尾帧锁定(关键帧生成)

LTX-Video / Wan I2V 支持"给首帧 + 尾帧,中间自动补"——做转场或固定构图视频的神器。

十、一个实战工作流:舞蹈二创

需求:把一段舞蹈视频的舞者换成用户自选角色。

源视频(舞蹈) │ ├─▶ VideoHelperSuite Load Video(逐帧 → 图像序列) │ │ │ └─▶ DWPose Preprocessor(逐帧生成姿态图) │ │ │ └─▶ 姿态图序列 │ │ │ ▼ │ Apply ControlNet OpenPose(strength=1.0) │ ▲ │ │ │ AnimateDiff Loader(mm_sd15_v3) │ ▲ │ │ │ Load Checkpoint(动漫模型) + IP-Adapter FaceID(用户脸照) │ ▲ │ │ │ CLIP Text Encode "1girl, red dress, dancing" │ │ │ ▼ │ KSampler(dpmpp_2m_sde, Uniform Context 16+4) │ │ │ ▼ │ VAE Decode(逐帧) │ │ │ ▼ │ RIFE VFI(8→24fps) │ │ │ ▼ └──▶ Video Combine(mp4, 24fps) ──▶ 最终视频

时间成本:10s 舞蹈视频,4090 上约 6-10 分钟。

十一、反模式

用 AnimateDiff 做写实视频:质量不够,该选 Hunyuan/Wan/SVD。
Hunyuan 用标签 prompt:它的 LLaMA-3 encoder 喜欢完整自然段落,标签堆砌效果平庸。
AnimateDiff 不用 Context Options 硬跑 64 帧:显存爆,且帧间语义漂移严重。
视频模型用 NF4 量化:精度损失在时间维度会放大,画面抖动。Hunyuan 建议 FP8 或 GGUF Q5+。
一帧一帧跑 VAE Decode 爆显存:SVD/Hunyuan 的 VAE 要用 VAE Decode (Tiled) 分块解码。
不 tile 放大导致 VRAM 爆:视频逐帧 4× 放大一定要 tile 模式。
fps=8 直接输出:没做插值,视觉上卡。至少 RIFE 到 24fps。
没考虑音频:AI 视频本身无音,商用别忘配音/BGM。

十二、本章小结

记住:
① 视频生成两大流派:AnimateDiff(2D+Motion) 轻量、生态丰富;原生视频模型(Hunyuan/Wan/SVD) 质量高、显存贵。
② 2025 主力:Hunyuan Video(腾讯) / Wan 2.2(阿里) / LTX-Video(实时)——前两者质量逼近 Sora,LTX 做实时 demo。
③ VRAM 是硬门槛:12GB 能玩 AnimateDiff+Wan 1.3B / LTX,24GB 能玩 Hunyuan/Wan 14B FP8,60GB+ 才能跑原版。
④ 后期三件套:RIFE 插帧、ESRGAN 放大、首尾帧锁定——AI 生成 → 后期加工 → 成片的标准流程。