传统 RAG 的第一步是 OCR + 文本切块,碰上表格、图表、多栏排版就瘸腿。ColPali 把整页文档喂给视觉语言模型,用 patch embedding + late interaction 直接算相关度——不解析、不 OCR、不切块,召回反而更准。从论文读起,到端到端生产部署,这十章把这条新路线走完。
从 OCR 为什么不够用讲起,一路到 ColQwen2 生态,把视觉检索这条路走到生产