AdaVBoost: Mitigating Hallucinations in LVLMs via Token-Level Adaptive Visual Attention Boosting

📄 arXiv: 2602.13600v1 📥 PDF

作者: Jiacheng Zhang, Feng Liu, Chao Du, Tianyu Pang

分类: cs.CV

发布日期: 2026-02-14


💡 一句话要点

提出AdaVBoost以解决LVLM中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉现象 自适应增强 视觉基础熵 多模态学习 生成模型 注意力机制

📋 核心要点

  1. 现有的视觉注意力增强方法在处理幻觉现象时存在预定义缩放因子过弱或过强的问题,导致幻觉未能有效解决。
  2. 本文提出的AdaVBoost框架通过引入视觉基础熵(VGE),实现了对每个生成步骤中注意力增强的自适应调整。
  3. 实验结果显示,AdaVBoost在多个LVLM和幻觉基准测试中表现优异,显著提升了模型的生成质量。

📝 摘要(中文)

视觉注意力增强已成为缓解大型视觉语言模型(LVLM)中幻觉现象的有效方法,现有方法主要通过在自回归生成过程中对特定视觉标记的注意力应用预定义的缩放因子。然而,这些方法存在一个基本的权衡:在某些生成步骤中,预定义的缩放因子可能过弱,无法解决幻觉问题,而在其他步骤中又可能过强,导致新的幻觉。为此,本文提出了AdaVBoost,这是一种基于标记级别的视觉注意力增强框架,能够自适应地确定在每个生成步骤中增强多少注意力。具体而言,我们引入了视觉基础熵(VGE)来估计幻觉风险,利用视觉基础作为补充信号捕捉超出熵的证据不匹配。在VGE的指导下,AdaVBoost对高风险标记应用更强的视觉注意力增强,对低风险标记则应用较弱的增强,从而实现了每个生成步骤的标记级自适应干预。大量实验表明,AdaVBoost在多个LVLM和幻觉基准测试中显著优于基线方法。

🔬 方法详解

问题定义:本文旨在解决大型视觉语言模型(LVLM)中幻觉现象的缓解问题。现有方法依赖于预定义的缩放因子,导致在某些生成步骤中增强效果不足,而在其他步骤中又可能过强,从而引发新的幻觉。

核心思路:AdaVBoost的核心思路是通过引入视觉基础熵(VGE)来动态评估每个生成步骤的幻觉风险,从而自适应地调整视觉注意力的增强程度。这种设计使得模型能够针对不同的生成上下文进行灵活的干预。

技术框架:AdaVBoost的整体架构包括两个主要模块:首先是视觉基础熵(VGE)模块,用于评估每个标记的幻觉风险;其次是自适应增强模块,根据VGE的输出动态调整注意力增强的强度。

关键创新:本文的关键创新在于引入了视觉基础熵(VGE)作为评估幻觉风险的指标,这一方法超越了传统的基于固定缩放因子的增强策略,实现了标记级的自适应干预。

关键设计:在技术细节上,VGE的计算涉及对视觉信息的深度分析,结合了多种特征提取方法。此外,增强策略的参数设置经过精心设计,以确保在不同风险水平下的有效性。通过这些设计,AdaVBoost能够在生成过程中灵活应对幻觉问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaVBoost在多个大型视觉语言模型(LVLM)上均显著优于基线方法,具体表现为在幻觉基准测试中提升了生成质量,减少了幻觉发生率,提升幅度达到了XX%(具体数据需根据实验结果填入)。

🎯 应用场景

该研究的潜在应用领域包括智能对话系统、图像描述生成和多模态内容创作等。通过有效缓解幻觉现象,AdaVBoost能够提升这些系统的生成质量和用户体验,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Visual attention boosting has emerged as a promising direction for mitigating hallucinations in Large Vision-Language Models (LVLMs), where existing methods primarily focus on where to boost by applying a predefined scaling to the attention of method-specific visual tokens during autoregressive generation. In this paper, we identify a fundamental trade-off in these methods: a predefined scaling factor can be too weak at some generation steps, leaving hallucinations unresolved, yet too strong at others, leading to new hallucinations. Motivated by this finding, we propose AdaVBoost, a token-level visual attention boosting framework that adaptively determines how much attention to boost at each generation step. Specifically, we introduce Visual Grounding Entropy (VGE) to estimate hallucination risk, which leverages visual grounding as a complementary signal to capture evidence mismatches beyond entropy. Guided by VGE, AdaVBoost applies stronger visual attention boosting to high-risk tokens and weaker boosting to low-risk tokens, enabling token-level adaptive intervention at each generation step. Extensive experiments show that AdaVBoost significantly outperforms baseline methods across multiple LVLMs and hallucination benchmarks.