ViDoRe · PaliGemma · Late Interaction · 2026

ColPali — 用眼睛读文档的 RAG

传统 RAG 的第一步是 OCR + 文本切块,碰上表格、图表、多栏排版就瘸腿。ColPali 把整页文档喂给视觉语言模型,用 patch embedding + late interaction 直接算相关度——不解析、不 OCR、不切块,召回反而更准。从论文读起,到端到端生产部署,这十章把这条新路线走完。

PaliGemma ColBERT 多向量 ViDoRe Benchmark byaldi Qdrant Multivector Vespa / Weaviate

开始学习 →

📊 10 章节 🧭 从 OCR 的极限到 VLM 检索 🚀 新一代多模态 RAG

ColPali — 用眼睛读文档的 RAG

课程目录