Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models

作者: Aaron Branson Cigres Li, Zhaowei Wang, Yu Zhao, Yiming Du, Haobo Li, Xiyu Ren, Ginny Wong, Simon See, Lishu Luo, Haodong Duan, Pasquale Minervini, Yangqiu Song

分类: cs.CV

发布日期: 2026-05-26

备注: Work in Progress

💡 一句话要点

提出多模态检索头检测方法，提升长文本视觉语言模型在图文检索任务中的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 视觉语言模型 长上下文建模 注意力机制 图像检索

📋 核心要点

现有方法在视觉语言模型中，难以有效定位图像中的证据，限制了模型在长上下文场景下的推理能力。
提出一种多模态检索头检测方法，通过评估问题token到文本或图像证据的注意力得分，识别关键检索头。
实验表明，少量检索头对性能至关重要，且可直接用于视觉文档排序，显著提升检索指标。

📝 摘要（中文）

大型视觉语言模型越来越多地依赖长上下文建模来处理文档、长时间视频和长期智能体轨迹，这要求它们在交错的文本和图像中定位相关证据。先前的工作使用大型语言模型中的检索头研究了这种行为，但其基于复制的标准并不直接适用于证据出现在图像中的情况。本文提出了一种多模态检索头检测方法，该方法对来自问题token到文本或视觉证据的注意力进行评分。结果表明，多模态检索头是稀疏的、内在的和因果重要的：只有4.4-10.2%的注意力头占据了50%的正检索分数质量，并且屏蔽前5%选择的头将MMLongBench-Doc从48.2%降低到5.7%，SlideVQA从71.2%降低到8.9%，而随机头屏蔽的损害要小得多。进一步的分析表明，这些头部分地在模态之间共享，但在每种模态内保持动态，随着上下文长度和haystack模态的变化，图像检索头比文本检索头变化更大。在没有进一步训练的情况下，发现这些头也可以直接用于对视觉丰富的文档进行排序：在MMDocIR上，Qwen3-VL-8B选择的头评分将页面检索的Recall@1提高了7.7/7.4宏/微点，布局检索提高了6.3/6.8点，优于最强的报告基线。

🔬 方法详解

问题定义：论文旨在解决长上下文视觉语言模型在处理图文混合数据时，如何有效检索和利用图像信息的问题。现有方法主要关注文本检索，缺乏对图像证据的有效利用和分析，导致模型在需要跨模态推理的任务中表现不佳。

核心思路：论文的核心思路是识别并分析模型中负责图像检索的“检索头”。通过评估问题token到图像区域的注意力得分，确定哪些注意力头对图像信息的提取和利用最为重要。这种方法能够揭示模型内部如何处理和整合不同模态的信息。

技术框架：该方法主要包含以下几个步骤：1) 使用视觉语言模型处理包含文本和图像的输入；2) 计算问题token到文本和图像区域的注意力得分；3) 根据注意力得分，识别出负责检索图像信息的注意力头（多模态检索头）；4) 分析这些检索头的特性，例如稀疏性、重要性和模态间的共享程度；5) 利用这些检索头进行下游任务，例如视觉文档排序。

关键创新：该方法的关键创新在于提出了一种针对视觉语言模型的多模态检索头检测方法。与以往主要关注文本检索的研究不同，该方法能够识别并分析模型中负责图像检索的注意力头，从而更好地理解模型如何处理和利用图像信息。

关键设计：论文的关键设计包括：1) 定义了多模态检索头的概念，并提出了一种基于注意力得分的检测方法；2) 设计了实验来验证检索头的稀疏性、重要性和模态间的共享程度；3) 将检索头应用于视觉文档排序任务，验证了其有效性。具体参数设置和网络结构沿用了Qwen3-VL-8B模型。

📊 实验亮点

实验结果表明，多模态检索头是稀疏且重要的。屏蔽前5%的检索头会导致MMLongBench-Doc和SlideVQA的性能大幅下降（分别从48.2%降至5.7%，从71.2%降至8.9%）。在MMDocIR任务中，利用Qwen3-VL-8B模型选择的检索头进行排序，页面检索的Recall@1提升了7.7/7.4（宏/微），布局检索提升了6.3/6.8，显著优于现有基线。

🎯 应用场景

该研究成果可应用于视觉文档理解、多模态信息检索、智能问答等领域。例如，可以利用该方法提升模型在处理包含图表的文档、视频字幕理解等任务中的性能，从而实现更智能的人机交互和信息处理。

📄 摘要（原文）

Large vision-language models increasingly rely on long-context modeling to reason over documents, hour-level videos, and long-horizon agent trajectories, requiring them to locate relevant evidence across interleaved text and images. Prior work has studied this behavior using retrieval heads in large language models, but its copy-based criterion does not directly apply when evidence appears in images. We introduce a multimodal retrieval head detection method that scores attention from question tokens to textual or visual evidence. With this method, we show that multimodal retrieval heads are sparse, intrinsic, and causally important: only 4.4-10.2% of attention heads account for 50% of the positive retrieval-score mass, and masking the top-5% selected heads drops MMLongBench-Doc from 48.2% to 5.7% and SlideVQA from 71.2% to 8.9%, while random-head masking is far less damaging. Further analysis shows that these heads are partly shared across modalities yet remain dynamic within each modality, with image retrieval heads changing more than text retrieval heads as context length and haystack modality change. Without further training, we find that these heads can also be used directly to rank visually rich documents: on MMDocIR, Qwen3-VL-8B selected-head scoring improves Recall@1 by 7.7/7.4 macro/micro points for page retrieval and 6.3/6.8 points for layout retrieval over the strongest reported baseline.

Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理