Visual Attention Never Fades: Selective Progressive Attention ReCalibration for Detailed Image Captioning in Multimodal Large Language Models

📄 arXiv: 2502.01419v2 📥 PDF

作者: Mingi Jung, Saehyung Lee, Eunji Kim, Sungroh Yoon

分类: cs.CV, cs.AI

发布日期: 2025-02-03 (更新: 2025-06-04)

备注: ICML 2025


💡 一句话要点

SPARC:多模态大语言模型中用于精细图像描述的选择性渐进式注意力重校准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述 多模态大语言模型 视觉注意力 注意力机制 精度召回率

📋 核心要点

  1. 现有MLLM在生成详细图像描述时,难以平衡精度和召回率,尤其是在长文本生成中表现不佳。
  2. SPARC通过选择性地增强关键视觉token的注意力,并随着生成过程的进行逐步重新校准注意力,从而提升描述质量。
  3. 实验结果表明,SPARC在提高精度的同时,也提升了召回率,且计算开销很小,优于现有方法。

📝 摘要(中文)

精细图像描述对于数据生成和辅助视障人士至关重要。高质量的描述需要精度和召回率之间的平衡,这对当前的多模态大语言模型(MLLM)来说仍然是一个挑战。本文假设这种限制源于随着响应长度的增加,视觉注意力的减弱和噪声的增加。为了解决这个问题,我们提出了一种名为SPARC(选择性渐进式注意力重校准)的免训练方法,该方法增强了解码过程中视觉token的贡献。SPARC基于三个关键观察结果:(1)增加所有视觉token的影响会降低召回率;因此,SPARC选择性地放大视觉token;(2)随着描述长度的增加,视觉注意力变得更加嘈杂,因此SPARC通过利用跨时间步的注意力差异来识别关键视觉token;(3)随着视觉注意力逐渐减弱,SPARC会加强它以保持其影响。我们的实验,包括自动和人工评估,表明现有方法以牺牲召回率为代价提高了MLLM的精度。相比之下,我们提出的方法以最小的计算开销提高了精度和召回率。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在生成详细图像描述时,精度和召回率难以兼顾的问题。现有方法往往以牺牲召回率为代价来提高精度,特别是在生成较长的描述时,视觉注意力会逐渐减弱并变得嘈杂,导致模型无法准确捕捉图像中的关键信息。

核心思路:SPARC的核心思路是选择性地增强关键视觉token的注意力,并在解码过程中逐步重新校准注意力。通过这种方式,既可以避免增加所有视觉token的影响而导致的召回率下降,又可以克服随着描述长度增加而出现的视觉注意力减弱和噪声增加的问题。

技术框架:SPARC是一种免训练方法,可以直接应用于现有的MLLM。其主要流程包括:1)选择性地放大视觉token:通过某种机制(例如,基于注意力差异)识别重要的视觉token;2)渐进式注意力重校准:随着描述长度的增加,逐步加强视觉注意力,以保持其影响力。

关键创新:SPARC的关键创新在于其选择性和渐进性。与简单地增加所有视觉token的注意力不同,SPARC只关注关键的视觉token,从而避免了召回率的下降。此外,SPARC的渐进式重校准机制能够有效地应对随着描述长度增加而出现的视觉注意力减弱和噪声增加的问题。

关键设计:SPARC的具体实现细节(例如,如何选择关键视觉token,如何进行注意力重校准)取决于所使用的MLLM的架构。论文中可能使用了注意力差异作为选择关键视觉token的依据,并设计了相应的算法来逐步加强视觉注意力。具体的参数设置和网络结构等细节需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPARC在提高MLLM生成详细图像描述的精度和召回率方面均优于现有方法。与现有方法以牺牲召回率为代价提高精度不同,SPARC能够同时提升精度和召回率,且计算开销很小。具体的性能提升数据需要在论文中查找。

🎯 应用场景

SPARC具有广泛的应用前景,包括数据生成、辅助视障人士、智能客服、图像检索等领域。高质量的图像描述可以帮助机器更好地理解图像内容,从而实现更智能的人机交互。未来,SPARC可以进一步扩展到视频描述、3D场景理解等更复杂的任务中。

📄 摘要(原文)

Detailed image captioning is essential for tasks like data generation and aiding visually impaired individuals. High-quality captions require a balance between precision and recall, which remains challenging for current multimodal large language models (MLLMs). In this work, we hypothesize that this limitation stems from weakening and increasingly noisy visual attention as responses lengthen. To address this issue, we propose SPARC (Selective Progressive Attention ReCalibration), a training-free method that enhances the contribution of visual tokens during decoding. SPARC is founded on three key observations: (1) increasing the influence of all visual tokens reduces recall; thus, SPARC selectively amplifies visual tokens; (2) as captions lengthen, visual attention becomes noisier, so SPARC identifies critical visual tokens by leveraging attention differences across time steps; (3) as visual attention gradually weakens, SPARC reinforces it to preserve its influence. Our experiments, incorporating both automated and human evaluations, demonstrate that existing methods improve the precision of MLLMs at the cost of recall. In contrast, our proposed method enhances both precision and recall with minimal computational overhead.