Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval

📄 arXiv: 2603.16455v1 📥 PDF

作者: Weiqing Li, Jinyue Guo, Yaqi Wang, Haiyang Xiao, Yuewei Zhang, Guohua Liu, Hao Henry Wang

分类: cs.CV

发布日期: 2026-03-17

备注: Accepted by CVPR2026


💡 一句话要点

Evo-Retriever:基于LLM引导的课程演化和视角-路径协作的多模态文档检索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态文档检索 LLM 课程学习 对比学习 视觉语言模型 跨模态对齐 困难样本挖掘

📋 核心要点

  1. 现有方法难以应对真实文档的异构性和非结构化带来的跨模态嵌入一致性问题。
  2. Evo-Retriever通过LLM引导的课程演化和视角-路径协作,自适应地调整训练过程。
  3. 在ViDoRe V2和MMEB数据集上,Evo-Retriever取得了SOTA性能,nDCG@5分别提升至65.2%和77.1%。

📝 摘要(中文)

视觉-语言模型(VLM)擅长数据映射,但现实世界中文档的异构性和非结构化特性破坏了跨模态嵌入的一致性。最近的后交互方法通过多向量表示增强了图像-文本对齐,然而,传统训练方法受限于样本数量和静态策略,无法适应模型的动态演化,导致跨模态检索混淆。为了解决这个问题,我们提出了Evo-Retriever,一个检索框架,其特点是基于新型视角-路径协作的LLM引导的课程演化。首先,我们采用多视角图像对齐,通过多尺度和多方向视角增强细粒度匹配。然后,双向对比学习策略生成“困难查询”,并建立互补的学习路径,用于视觉和文本消歧,以重新平衡监督。最后,来自上述协作的模型状态摘要被输入到LLM元控制器中,该控制器利用专家知识自适应地调整训练课程,以促进模型的演化。在ViDoRe V2和MMEB (VisDoc)数据集上,Evo-Retriever取得了最先进的性能,nDCG@5得分分别为65.2%和77.1%。

🔬 方法详解

问题定义:论文旨在解决多模态文档检索中,由于文档异构性和非结构化导致跨模态嵌入一致性差的问题。现有方法通常采用静态训练策略和有限的样本,无法适应模型在训练过程中的动态变化,导致检索性能下降。

核心思路:论文的核心思路是利用LLM作为元控制器,根据模型在训练过程中的状态,动态调整训练课程。通过多视角图像对齐和双向对比学习,增强模型对细粒度特征的理解和区分能力,从而提高检索准确率。

技术框架:Evo-Retriever框架包含三个主要模块:多视角图像对齐模块、双向对比学习模块和LLM元控制器。首先,多视角图像对齐模块从多尺度和多方向提取图像特征。然后,双向对比学习模块生成困难样本,并建立视觉和文本的互补学习路径。最后,LLM元控制器根据前两个模块的模型状态,自适应地调整训练课程。

关键创新:论文的关键创新在于LLM引导的课程演化。与传统的静态训练策略不同,Evo-Retriever利用LLM的知识推理能力,根据模型的状态动态调整训练难度和样本选择,使模型能够更好地适应数据的复杂性。此外,视角-路径协作机制通过多视角图像对齐和双向对比学习,增强了模型对细粒度特征的理解和区分能力。

关键设计:多视角图像对齐模块采用多尺度卷积和多方向池化提取图像特征。双向对比学习模块使用InfoNCE损失函数,并引入困难样本挖掘策略。LLM元控制器使用模型在验证集上的性能作为反馈信号,通过强化学习或进化算法调整训练课程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Evo-Retriever在ViDoRe V2和MMEB (VisDoc)数据集上取得了显著的性能提升,超越了现有的SOTA方法。在ViDoRe V2数据集上,nDCG@5指标达到了65.2%,在MMEB数据集上达到了77.1%。这些结果表明,LLM引导的课程演化和视角-路径协作能够有效地提高多模态文档检索的准确率。

🎯 应用场景

Evo-Retriever可应用于各种需要跨模态文档检索的场景,例如:智能文档管理、多媒体信息检索、视觉问答系统等。该研究能够提升在复杂、非结构化文档中检索相关信息的能力,具有重要的实际应用价值。未来,该方法可以扩展到更多模态和更复杂的文档类型,例如视频、音频等。

📄 摘要(原文)

Visual-language models (VLMs) excel at data mappings, but real-world document heterogeneity and unstructuredness disrupt the consistency of cross-modal embeddings. Recent late-interaction methods enhance image-text alignment through multi-vector representations, yet traditional training with limited samples and static strategies cannot adapt to the model's dynamic evolution, causing cross-modal retrieval confusion. To overcome this, we introduce Evo-Retriever, a retrieval framework featuring an LLM-guided curriculum evolution built upon a novel Viewpoint-Pathway collaboration. First, we employ multi-view image alignment to enhance fine-grained matching via multi-scale and multi-directional perspectives. Then, a bidirectional contrastive learning strategy generates "hard queries" and establishes complementary learning paths for visual and textual disambiguation to rebalance supervision. Finally, the model-state summary from the above collaboration is fed into an LLM meta-controller, which adaptively adjusts the training curriculum using expert knowledge to promote the model's evolution. On ViDoRe V2 and MMEB (VisDoc), Evo-Retriever achieves state-of-the-art performance, with nDCG@5 scores of 65.2% and 77.1%.