Chapter 10

生态与未来:ColQwen2、ColSmolVLM 及之后

ColPali 开源后一年,社区基于相同思路换骨干换规模换任务,涌现一众"Col-X"家族。本章把 2026 年能用到的模型梳一遍,给一份选型决策树。

模型家族大图

模型骨干参数特点适用
ColPali v1.2PaliGemma-3B3B原版,固定 448×448通用基线
ColQwen2Qwen2-VL-2B2B动态分辨率,高分图更强A3 大页、精细图表
ColQwen2.5Qwen2.5-VL-3B3B多页 reasoning 好跨页引用任务
ColInternVL2InternVL2-2B2B中文/日韩强东亚语种业务
ColSmolVLMSmolVLM-500M0.5B笔记本/边缘可跑离线 / 私有化
ColFlorPaliGemma 2-10B10B精度顶配高价值检索
BiColPali双塔版单向量近似,快 10x大规模粗筛

选型决策树

从"文档量 + 延迟 + 语言"三维拍板: 文档量 ├─ < 10 万页: ColQwen2.5 (最强精度) ├─ 10 万 - 500 万: ColPali v1.2 + binary + token pool └─ > 500 万: Vespa + BiColPali 粗筛 + Col 精排 语言 ├─ 英文为主: 任意 ├─ 中文为主: ColInternVL2 优先 └─ 多语言混合: ColQwen2.5 (Qwen 多语支持好) 延迟预算 ├─ p99 < 50ms: 必须 binary + 两段式 ├─ p99 < 200ms: 原生 bfloat16 够用 └─ 离线批处理: 任何模型 隐私/部署 ├─ 数据不出境: 必须自托管 ├─ 边缘/移动: ColSmolVLM └─ 无限制: 云推理 API 最快上线

API 托管服务

Vespa Cloud
官方 ColPali blueprint 一键部署,按查询量计费。
Qdrant Cloud
托管向量库 + 自己跑 embedding 服务。
Jina AI / Voyage AI
提供 col-style 多向量 embedding API,按 token 付费,免运维。
Cohere Rerank 2
不是 ColPali 家族,但同样支持 late interaction 做 rerank,常用于 ColPali 召回 + Cohere 精排级联。

2026 前沿方向

Unified 视觉 embedding
OpenAI / Google 下一代 embedding 直接支持"给图片或文本,出多向量"——ColPali 可能被基础设施化。
长文档(多页)embedding
ViDoRe v2 里跨页 query 占比增加,未来模型要把"整份文档"做成单个 hierarchical embedding。
视频 ColVid
把"页"换成"视频帧",原理一致。已有早期研究。
端侧部署
ColSmolVLM + MLX/llama.cpp 做 Mac/iPhone 离线搜索本地文档。
Agent 结合
Agent 用 ColPali 检索文档证据、用 VLM 读取、用工具执行——整个闭环都在视觉空间,不降维到文本。

学习资源

终点:视觉检索的三条法则

全书小结