Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation
作者: Boyang Gong, Yu Zheng, Fanye Kong, Jie Zhou, Jiwen Lu
分类: cs.CV, cs.AI
发布日期: 2026-04-06
💡 一句话要点
提出Inertia-aware Visual Excitation方法,缓解多模态大语言模型中的认知幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 认知幻觉 视觉注意力 关系推理 视觉惯性
📋 核心要点
- 现有方法难以解决多模态大语言模型中需要对象间关系推导的认知幻觉问题。
- 提出Inertia-aware Visual Excitation (IVE)方法,通过建模视觉注意力的动态响应来打破视觉惯性。
- 实验表明,IVE在多种MLLM和幻觉基准测试中有效,尤其是在认知幻觉方面。
📝 摘要(中文)
本文发现多模态大语言模型(MLLM)中的视觉注意力表现出显著的惯性,一旦在早期解码步骤中稳定下来,就保持相对静态,无法支持认知推理所需的组合理解。现有幻觉缓解方法主要针对关于对象存在或属性的感知幻觉,但对于需要对象间关系推导的认知幻觉仍然不足。通过token级别的注意力分析,我们将这种视觉惯性确定为一个关键因素:对语义关键区域的注意力持续集中,无法动态地支持关系推理。因此,我们提出了一种无需训练的Inertia-aware Visual Excitation (IVE)方法,通过将认知推理建模为视觉注意力的动态响应来打破这种惯性模式。具体来说,IVE选择相对于历史注意力趋势动态出现的视觉token,同时区分表现出惯性行为的token。为了进一步促进组合推理,IVE引入了一种惯性感知惩罚,以抑制过度集中并限制注意力在局部区域内的持久性。大量实验表明,IVE在各种基础MLLM和多个幻觉基准测试中均有效,尤其是在认知幻觉方面。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)中存在的认知幻觉问题。现有的幻觉缓解方法主要集中在感知幻觉上,例如对象是否存在或属性是什么,但对于需要进行对象间关系推理的认知幻觉效果不佳。论文指出,视觉注意力的“惯性”是导致认知幻觉的关键因素,即注意力一旦集中在某些区域,就很难动态调整以支持更复杂的推理。
核心思路:论文的核心思路是打破视觉注意力的惯性,使其能够动态响应认知推理的需求。通过激发(Excitation)那些相对于历史注意力趋势动态出现的视觉token,并抑制那些表现出惯性行为的token,来促使模型关注更重要的关系信息。同时,通过引入惯性感知惩罚,避免注意力过度集中在局部区域,鼓励模型进行更全面的理解。
技术框架:IVE方法主要包含两个关键部分:1) 动态视觉token选择:该模块旨在选择那些相对于历史注意力趋势动态变化的视觉token。具体实现方式未知,但推测可能是通过计算当前注意力分布与历史注意力分布的差异来实现。2) 惯性感知惩罚:该模块旨在抑制注意力过度集中在局部区域,鼓励模型关注更广泛的视觉信息。具体实现方式未知,但推测可能是通过对注意力分布施加正则化约束来实现。
关键创新:IVE方法的关键创新在于它将认知推理建模为视觉注意力的动态响应,并提出了相应的视觉激发机制和惯性感知惩罚。与现有方法不同,IVE不依赖于额外的训练数据或复杂的模型结构,而是在推理阶段直接干预注意力机制,从而实现更高效的认知幻觉缓解。
关键设计:论文中并未详细描述动态视觉token选择和惯性感知惩罚的具体实现细节,例如如何量化注意力分布的动态变化,以及如何设计有效的正则化约束。这些细节对于理解和复现IVE方法至关重要,但目前未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IVE方法在多个幻觉基准测试中均取得了显著的性能提升,尤其是在认知幻觉方面。该方法无需额外的训练,可以直接应用于各种基础MLLM,具有良好的通用性和易用性。具体的性能数据和提升幅度在论文中未明确给出,需要查阅原文。
🎯 应用场景
该研究成果可应用于各种需要多模态信息融合和复杂推理的任务中,例如视觉问答、图像描述、机器人导航等。通过缓解认知幻觉,可以提高多模态大语言模型的可靠性和准确性,使其在实际应用中更具价值。未来,该方法可以进一步扩展到其他模态,例如语音和文本,以实现更全面的认知推理能力。
📄 摘要(原文)
Like a body at rest that stays at rest, we find that visual attention in multimodal large language models (MLLMs) exhibits pronounced inertia, remaining largely static once settled during early decoding steps and failing to support the compositional understanding required for cognitive inference. While existing hallucination mitigation methods mainly target perceptual hallucinations concerning object existence or attributes, they remain inadequate for such cognitive hallucinations that require inter-object relational deduction. Through token-wise attention analysis, we identify this visual inertia as a key factor: attention to semantically critical regions remains persistently focused and fails to dynamically support relational inference. We thereby propose a training-free Inertia-aware Visual Excitation (IVE) method that breaks this inertial pattern by modeling cognitive inference as the dynamic responsiveness of visual attention. Specifically, IVE selects visual tokens that are dynamically emerging relative to historical attention trends while distinguishing tokens exhibiting inertial behavior. To further facilitate compositional inference, IVE introduces an inertia-aware penalty that discourages over-concentration and limits the persistence of attention within localized regions. Extensive experiments show that IVE is effective across various base MLLMs and multiple hallucination benchmarks, particularly for cognitive hallucinations.