Learning to See What You Need: Gaze Attention for Multimodal Large Language Models

作者: Junha Song, Byeongho Heo, Geonmo Gu, Jaegul Choo, Dongyoon Han, Sangdoo Yun

分类: cs.CV

发布日期: 2026-05-13

💡 一句话要点

提出Gaze Attention机制，提升多模态大语言模型视觉关注效率与性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉注意力机制 注视区域选择 图像理解 视频理解

📋 核心要点

现有MLLM平等关注所有视觉tokens，导致计算冗余和关注分散，影响生成质量。
Gaze Attention通过动态选择并聚焦于任务相关的视觉区域，减少计算量并提升关注效率。
实验表明，Gaze Attention在显著减少计算量的同时，性能可媲美甚至超越密集注意力方法。

📝 摘要（中文）

本文提出了一种名为Gaze Attention的新机制，旨在使多模态大语言模型(MLLM)在生成过程中选择性地关注任务相关的视觉区域。与当前MLLM在每个生成步骤中关注所有视觉tokens不同，Gaze Attention将视觉嵌入（存储为键值缓存）在空间上分组为紧凑的注视区域，每个区域由轻量级描述符表示。在每个解码步骤中，模型动态选择最相关的区域并限制对其的关注，从而减少冗余计算并增强焦点。为了减轻局部注意力造成的全局上下文信息丢失，本文进一步提出了可学习的上下文tokens，附加到每个图像或帧，使模型能够保持整体视觉感知。在图像和视频理解基准上的大量实验表明，Gaze Attention在注意力计算中使用高达90%更少的视觉KV条目的同时，匹配或超过了密集注意力基线。

🔬 方法详解

问题定义：当前的多模态大语言模型在处理视觉信息时，通常采用密集注意力机制，即在每个解码步骤中，模型需要关注图像或视频中的所有视觉tokens。这种方式存在两个主要问题：一是计算冗余，因为并非所有视觉区域都与当前的任务相关；二是关注分散，模型难以聚焦于关键信息，影响生成质量。因此，需要一种更高效的视觉注意力机制，能够选择性地关注任务相关的视觉区域。

核心思路：Gaze Attention的核心思路是模拟人类的视觉注意机制，即在观察场景时，并非均匀地处理所有信息，而是选择性地注视与当前任务相关的区域。具体来说，Gaze Attention将视觉嵌入在空间上分组为紧凑的“注视区域”，并动态地选择最相关的区域进行关注。通过这种方式，可以减少冗余计算，并增强模型对关键信息的关注。

技术框架：Gaze Attention的整体框架可以分为以下几个主要步骤：1. 视觉特征提取：使用预训练的视觉模型（如ViT）提取图像或视频帧的视觉特征。2. 区域分组：将视觉特征在空间上分组为多个紧凑的注视区域。每个区域由一个轻量级的描述符表示。3. 区域选择：在每个解码步骤中，模型根据当前的任务需求，动态地选择最相关的注视区域。4. 注意力计算：将注意力机制限制在选定的注视区域内，从而减少计算量。5. 上下文融合：为了弥补局部注意力造成的全局信息丢失，引入可学习的上下文tokens，与选定的区域特征进行融合。

关键创新：Gaze Attention的关键创新在于其动态选择和聚焦视觉区域的能力。与传统的密集注意力机制不同，Gaze Attention能够根据任务需求，自适应地调整关注的区域，从而提高计算效率和生成质量。此外，通过引入上下文tokens，Gaze Attention能够有效地弥补局部注意力造成的全局信息丢失。

关键设计：在区域分组方面，可以使用聚类算法（如K-means）将视觉特征分组为多个区域。每个区域的描述符可以是该区域内所有特征的均值。在区域选择方面，可以使用注意力机制来计算每个区域的权重，并选择权重最高的区域。上下文tokens可以通过随机初始化并与视觉特征一起训练得到。损失函数可以采用标准的交叉熵损失函数，用于训练语言模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Gaze Attention在图像和视频理解基准上取得了显著的性能提升。例如，在某些任务上，Gaze Attention使用高达90%更少的视觉KV条目的同时，性能与密集注意力基线相当甚至更好。这表明Gaze Attention能够有效地减少计算量，并提高模型的效率。

🎯 应用场景

Gaze Attention具有广泛的应用前景，例如可以应用于图像描述生成、视频理解、视觉问答等任务。通过减少计算量和提高关注效率，Gaze Attention可以使MLLM在资源受限的设备上运行，并能够处理更大规模的视觉数据。此外，Gaze Attention还可以用于提高模型的可解释性，通过可视化关注区域，可以了解模型关注的关键信息。

📄 摘要（原文）

When humans describe a visual scene, they do not process the entire image uniformly; instead, they selectively fixate on regions relevant to their intended description. In contrast, current multimodal large language models (MLLMs) attend to all visual tokens at each generation step, leading to diluted focus and unnecessary computational overhead. In this work, we introduce Gaze Attention, a novel mechanism that enables MLLMs to selectively attend to task-relevant visual regions during generation. Specifically, we spatially group visual embeddings-stored as key-value caches-into compact gaze regions, each represented by a lightweight descriptor. At each decoding step, the model dynamically selects the most relevant regions and restricts attention to them, reducing redundant computation while enhancing focus. To mitigate the loss of global context caused by localized attention, we further propose learnable context tokens appended to each image or frame, allowing the model to maintain holistic visual awareness. Extensive experiments on image and video understanding benchmarks demonstrate that Gaze Attention matches or surpasses dense-attention baselines, while using up to 90% fewer visual KV entries in the attention computation.

Learning to See What You Need: Gaze Attention for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理