Chapter 10

视频生成 · AnimateDiff / SVD / Hunyuan / Wan

2024 年是视频生成从"小丑式跳帧"走向"真能用"的分水岭——腾讯 Hunyuan、阿里 Wan 开源,Flux 生态也补齐视频,消费级显卡终于能跑 5-10 秒的像样视频。

一、视频生成的两个流派

2D + Motion Module(AnimateDiff 流派)
在现有 SD1.5/SDXL 上加"时间维度注意力模块"——复用图像模型,给帧与帧之间加入连贯性。轻量、生态丰富,质量中等。
原生视频模型(Sora / Hunyuan / Wan / SVD)
从零训的视频扩散模型,时间维度一等公民。质量高、运动自然,但模型大、显存贵。

二、模型家族速查

模型分辨率 × 帧显存质量备注
AnimateDiff v3(SD1.5)512×512 × 166-8GB★★★老牌,LoRA 生态丰富
AnimateDiff-Lightning同上,4 步出6-8GB★★★2024 加速版
Hotshot-XL(SDXL 动画)1024×576 × 812GB★★★SDXL 版 AnimateDiff
SVD(Stable Video Diffusion)1024×576 × 14/2514-20GB★★★★2023 末,img2video
CogVideoX 5B720×480 × 4912-24GB★★★★清华系,质量好
Hunyuan Video720×1280 × 12960GB+ / 量化 12GB★★★★★腾讯,2024 年底开源王者
Wan 2.1 / 2.2480p-720p × 5-10s量化 12-16GB★★★★★阿里,质量接近 Sora
Mochi-1480×848 × 16360GB+★★★★Genmo,首个开源巨型 DiT 视频
LTX-Video768×512 × 12112GB★★★★Lightricks,实时生成取向

2025 主流:Hunyuan / Wan 是质量天花板,LTX-Video 是实时之王,AnimateDiff 仍活跃于动漫二创

三、AnimateDiff 工作流(入门最友好)

安装

工作流

Load Checkpoint(SD1.5 动漫模型) │ ▼ AnimateDiff Loader ──▶ MODEL'(加了 Motion Module 的模型) │ ├─ model_name = mm_sd15_v3 ├─ beta_schedule = lcm >> linear(根据 sampler) ├─ context_length = 16(一次生成 16 帧) CLIP Text Encode(正/负 prompt) │ ▼ Empty Latent Image(512×512, batch=16)── frames 数 │ ▼ KSampler(dpmpp_2m_sde, karras, 25 步, cfg=7) │ ▼ VAE Decode(逐帧) │ ▼ Video Combine(拼成 mp4/gif,fps=8-12)

16 帧 → 更长视频:Context Batch

AnimateDiff 原生只能 16 帧。想做 64/128 帧:用 Uniform Context Options——把长视频切成 16 帧窗口,窗口之间重叠 4-8 帧,分段去噪后拼接。ComfyUI-AnimateDiff-Evolved 内置支持,连上 Context Options 节点即可。

加 ControlNet

视频版 ControlNet 和图像版一样用——但 CN 输入也是视频(比如 DWPose 对整个视频做姿态检测):

Video Input(舞蹈视频) ──▶ DWPose Preprocessor(逐帧) ──▶ 姿态图序列
                                                            │
                                                            ▼
                                              Apply ControlNet(strength=1.0)
                                                            │
                  配合 AnimateDiff Motion Module + IP-Adapter(人物)
                                                            │
                                                            ▼
                                                    同姿态的角色动画

这是 B 站 / TikTok 上"换舞蹈主角"视频的主流做法。

四、Stable Video Diffusion(img2video)

SVD 是 Stability AI 2023 末推出的图像到视频模型——给一张图,生成 14 或 25 帧的短视频,带上自然的相机运动。

工作流

Load Image(起始帧) │ ▼ SVD_img2vid_Conditioning ─┐ ├─ motion_bucket_id = 127(运动强度,0-255) ├─ augmentation_level = 0.0(随机性,0-1) └─ fps = 6(decode 帧率) ▼ Load Checkpoint(svd_xt.safetensors)── MODEL │ ▼ KSampler(euler, 20 步, cfg=2.5) │ ▼ VAE Decode(视频 VAE 专用) │ ▼ Video Combine

SVD 两个版本:

五、Hunyuan Video(2024 年底王者)

腾讯开源,13B 参数,原生文生视频。质量接近 Runway Gen-3 / Kling。

硬件门槛

版本显存速度(5s 视频)
FP16 原版60GB+H100 上 2-5 分钟
FP8 量化24GB4090 上 8-15 分钟
GGUF Q4/Q512GB3060 上 20-40 分钟

工作流

Manager 装:ComfyUI-HunyuanVideoWrapper 或原生 ComfyUI 支持

模型文件:
  models/diffusion_models/hunyuan_video_t2v_720p_bf16.safetensors
  models/text_encoders/llava_llama3_fp16.safetensors(LLaMA-3 based)
  models/text_encoders/clip_l.safetensors
  models/vae/hunyuan_video_vae_bf16.safetensors

核心节点:
HunyuanVideo Sampler
  ├─ width=720, height=1280
  ├─ num_frames=65(~2s @ 24fps) / 129(~5s)
  ├─ steps=30
  ├─ guidance=6.0
  └─ flow_shift=7.0(视频专用流匹配)
Hunyuan 的 prompt 技巧
——Hunyuan 用 LLaMA-3 做 text encoder,理解力极强。写长段自然语言描述"镜头怎么动、人物做什么、光影怎么变"——不是标签风。例:"A woman in red dress slowly walks towards the camera, camera slowly tilts up to reveal a sunset sky, cinematic lighting, 35mm film grain, warm color grading."

六、Wan 2.1 / 2.2(阿里,2024-2025)

Wan(通义万相)阿里视频模型,开源版本分 T2V 文生视频、I2V 图生视频、T2I 图像三路。

Wan 2.1 / 2.2 速览

版本类型参数特点
Wan 2.1 T2V 14B文生视频14B480p / 720p,5-10s
Wan 2.1 I2V 14B图生视频14B图+prompt → 视频
Wan 2.1 T2V 1.3B轻量文生视频1.3B8GB 显卡可跑
Wan 2.2 T2V-A14BMoE 结构专家激活 ≈ 14B2025 升级,高低噪 MoE
Wan 2.2 I2V-A14BMoE 图生视频同上质量接近闭源 Sora
Wan 2.2 TI2V-5B统一文/图视频5B消费级 5B 最强

ComfyUI 原生支持 Wan,有 WanVideo Sampler / WanImageToVideo 等节点,Manager 里装 ComfyUI-WanVideoWrapper

七、LTX-Video(实时取向)

Lightricks 2024 底发布 LTX-Video——2B DiT,专攻"实时生成"。在 4090 上生成 5s 720p 视频只要 4-8 秒(比 real-time 还快)。

八、VRAM 实战经验

12GB 显卡(3060 / 4070)跑视频

24GB 显卡(3090 / 4090)

视频生成的耐心学
——10GB 显存跑 Hunyuan 5s 视频约 20-40 分钟。这不是"等等就好",而是"你得规划好 prompt,一次跑对",浪费 40 分钟发现 prompt 写错了会崩溃。建议:先用 AnimateDiff / LTX 快速试 prompt,定稿后再用 Hunyuan/Wan 最终渲染。

九、视频常用后期

帧插值(FILM / RIFE)

AI 视频原生只有 8-16 fps,看着卡。用 ComfyUI-Frame-Interpolation 的 FILM/RIFE 节点插成 24/30/60fps:

视频帧序列(8fps) ──▶ RIFE VFI(multiplier=3) ──▶ 24fps 平滑视频

分辨率提升

视频 ESRGAN 放大——逐帧或用专用时序模型 Real-ESRGAN-x4plus_anime_6B:

视频帧 ──▶ Upscale Image (using Model, 2x) ──▶ 高清视频帧
(建议用 tile 放大模式,避免每帧 OOM)

首尾帧锁定(关键帧生成)

LTX-Video / Wan I2V 支持"给首帧 + 尾帧,中间自动补"——做转场或固定构图视频的神器。

十、一个实战工作流:舞蹈二创

需求:把一段舞蹈视频的舞者换成用户自选角色。

源视频(舞蹈) │ ├─▶ VideoHelperSuite Load Video(逐帧 → 图像序列) │ │ │ └─▶ DWPose Preprocessor(逐帧生成姿态图) │ │ │ └─▶ 姿态图序列 │ │ │ ▼ │ Apply ControlNet OpenPose(strength=1.0) │ ▲ │ │ │ AnimateDiff Loader(mm_sd15_v3) │ ▲ │ │ │ Load Checkpoint(动漫模型) + IP-Adapter FaceID(用户脸照) │ ▲ │ │ │ CLIP Text Encode "1girl, red dress, dancing" │ │ │ ▼ │ KSampler(dpmpp_2m_sde, Uniform Context 16+4) │ │ │ ▼ │ VAE Decode(逐帧) │ │ │ ▼ │ RIFE VFI(8→24fps) │ │ │ ▼ └──▶ Video Combine(mp4, 24fps) ──▶ 最终视频

时间成本:10s 舞蹈视频,4090 上约 6-10 分钟。

十一、反模式

  1. 用 AnimateDiff 做写实视频:质量不够,该选 Hunyuan/Wan/SVD。
  2. Hunyuan 用标签 prompt:它的 LLaMA-3 encoder 喜欢完整自然段落,标签堆砌效果平庸。
  3. AnimateDiff 不用 Context Options 硬跑 64 帧:显存爆,且帧间语义漂移严重。
  4. 视频模型用 NF4 量化:精度损失在时间维度会放大,画面抖动。Hunyuan 建议 FP8 或 GGUF Q5+。
  5. 一帧一帧跑 VAE Decode 爆显存:SVD/Hunyuan 的 VAE 要用 VAE Decode (Tiled) 分块解码。
  6. 不 tile 放大导致 VRAM 爆:视频逐帧 4× 放大一定要 tile 模式。
  7. fps=8 直接输出:没做插值,视觉上卡。至少 RIFE 到 24fps。
  8. 没考虑音频:AI 视频本身无音,商用别忘配音/BGM。

十二、本章小结

记住:
① 视频生成两大流派:AnimateDiff(2D+Motion) 轻量、生态丰富;原生视频模型(Hunyuan/Wan/SVD) 质量高、显存贵。
② 2025 主力:Hunyuan Video(腾讯) / Wan 2.2(阿里) / LTX-Video(实时)——前两者质量逼近 Sora,LTX 做实时 demo。
③ VRAM 是硬门槛:12GB 能玩 AnimateDiff+Wan 1.3B / LTX,24GB 能玩 Hunyuan/Wan 14B FP8,60GB+ 才能跑原版。
④ 后期三件套:RIFE 插帧、ESRGAN 放大、首尾帧锁定——AI 生成 → 后期加工 → 成片的标准流程。