RAVE: Re-Allocating Visual Attention in Large Multimodal Models

📄 arXiv: 2605.18359v1 📥 PDF

作者: Xi Leng, Xinhong Ma, Ziqiang Dong, Feng Zhang, Xiaoying Tang, Yang Yang, Guanjun Jiang

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

RAVE:通过重分配视觉注意力提升大型多模态模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉注意力 大型模型 跨模态融合 视觉问答

📋 核心要点

  1. 现有大型多模态模型在视觉注意力分配上存在跨模态和模态内不平衡问题,影响性能。
  2. RAVE通过引入轻量级的pair-gating机制,学习query-key偏差来重新分配视觉注意力。
  3. 实验表明,RAVE在多种多模态任务上优于标准注意力,尤其在感知密集型任务上提升显著。

📝 摘要(中文)

大型多模态模型(LMMs)继承了预训练语言模型的自注意力机制,但标准注意力机制可能表现出次优的分配,包括文本和视觉证据之间的跨模态错误分配,以及视觉tokens之间的视觉内部不平衡。我们提出了RAVE(重分配视觉注意力),这是一种轻量级的pair-gating机制,它将学习到的query-key偏差添加到视觉keys的预softmax注意力分数中,该偏差源自预RoPE query和key特征。RAVE不需要对backbone进行架构修改,并且可以与模型的其余部分进行端到端训练。在一系列多模态基准测试中,RAVE比标准注意力平均提高了3个点,在感知密集型任务(包括多语言OCR、图表理解、文档VQA和场景文本VQA)上获得了最大的收益,在这些任务中,准确的视觉基础至关重要。

🔬 方法详解

问题定义:大型多模态模型依赖自注意力机制进行跨模态信息融合,但标准注意力在处理视觉信息时存在不足。具体表现为:一是跨模态的错误分配,即模型可能将注意力错误地分配到不相关的文本或视觉区域;二是视觉模态内部的不平衡,即模型可能过度关注某些视觉tokens而忽略其他重要tokens。这些问题导致模型无法准确理解图像内容,从而影响下游任务的性能。

核心思路:RAVE的核心思路是通过学习一种query-key偏差来重新分配视觉注意力。该偏差基于query和key特征,旨在引导模型更准确地关注重要的视觉tokens,并减少对不相关区域的关注。通过这种方式,RAVE可以有效地解决标准注意力机制中存在的跨模态和模态内不平衡问题。

技术框架:RAVE是一种轻量级的pair-gating机制,它被添加到预softmax注意力分数中。具体来说,对于每个视觉key,RAVE都会计算一个query-key偏差,该偏差基于预RoPE(Rotary Position Embedding)query和key特征。然后,将该偏差添加到预softmax注意力分数中,从而影响模型对不同视觉tokens的关注程度。RAVE不需要对backbone进行架构修改,可以方便地集成到现有的LMMs中,并与模型的其余部分进行端到端训练。

关键创新:RAVE的关键创新在于其pair-gating机制,该机制能够学习query-key偏差,从而实现对视觉注意力的重新分配。与传统的注意力机制相比,RAVE能够更准确地关注重要的视觉tokens,并减少对不相关区域的关注。此外,RAVE的轻量级设计使其易于集成到现有的LMMs中,而无需进行大量的架构修改。

关键设计:RAVE的关键设计包括:1) 使用预RoPE query和key特征来计算query-key偏差,这有助于模型更好地理解视觉tokens之间的关系;2) 将学习到的偏差添加到预softmax注意力分数中,从而直接影响模型对不同视觉tokens的关注程度;3) RAVE可以与模型的其余部分进行端到端训练,这使得模型能够更好地学习如何分配视觉注意力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,RAVE在多个多模态基准测试中取得了显著的性能提升,平均提升3个点。尤其是在感知密集型任务上,如多语言OCR、图表理解、文档VQA和场景文本VQA,RAVE的提升更为明显。这些结果表明,RAVE能够有效地解决标准注意力机制中存在的跨模态和模态内不平衡问题,从而提升模型对视觉信息的理解能力。

🎯 应用场景

RAVE通过提升大型多模态模型对视觉信息的理解能力,可广泛应用于需要精确视觉感知的场景,如OCR识别、图表理解、文档视觉问答、场景文本理解等。该技术有助于提升自动化文档处理、智能信息检索和人机交互系统的性能,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Large multimodal models (LMMs) inherit the self-attention mechanism of pretrained language backbones, yet standard attention can exhibit suboptimal allocation, including cross-modal misallocation between textual and visual evidence and intra-visual imbalance among visual tokens. We propose RAVE (Re-Allocating Visual Attention), a lightweight pair-gating mechanism that adds a learned query--key bias to pre-softmax attention scores over visual keys, derived from pre-RoPE query and key features. RAVE requires no architectural modification to the backbone and can be trained end-to-end with the rest of the model. Across a suite of multimodal benchmarks, RAVE improves over standard attention by an average of 3 points, with the largest gains on perception-intensive tasks -- including multilingual OCR, chart understanding, document VQA, and scene text VQA -- where accurate visual grounding is critical.