Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation
作者: Xingyu Zhu, Kesen Zhao, Liang Yi, Shuo Wang, Zhicai Wang, Beier Zhu, Hanwang Zhang
分类: cs.CV
发布日期: 2026-02-27
备注: ICLR 2026
💡 一句话要点
提出自适应视觉增强AIR框架,缓解多模态大语言模型中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 幻觉缓解 视觉增强 自适应学习 最优传输
📋 核心要点
- 多模态大语言模型易受幻觉影响,现有缓解方法存在训练成本高或推理延迟大的问题。
- AIR框架通过原型token减少和OT引导的patch增强,选择性地强化关键视觉信息,无需额外训练。
- 实验表明,AIR能显著减少幻觉,同时保持模型的一般能力,提升了多模态大语言模型的可靠性。
📝 摘要(中文)
多模态大语言模型(MLLMs)在视觉-语言推理方面取得了显著进展,但仍然容易产生幻觉,即生成的内容偏离视觉证据。现有的缓解策略要么需要在训练期间进行昂贵的监督,要么在推理时引入额外的延迟。最近的视觉增强方法试图通过在解码期间增强视觉tokens来解决这个问题,但它们通常不加区分地注入所有tokens,这会导致来自背景区域的干扰,并使模型从关键线索中分心。为了克服这一挑战,我们提出了自适应视觉增强(AIR),这是一个用于MLLMs的免训练框架。AIR由两个组件组成:基于原型的token减少,将大量的视觉tokens压缩成一个紧凑的子集,以抑制冗余;OT引导的patch增强,量化隐藏状态和patch嵌入之间的对齐,以选择性地将最一致的patches集成到前馈层中。因此,AIR增强了模型对显著视觉信息的依赖,并有效地缓解了幻觉。在代表性MLLMs上进行的大量实验表明,AIR在保持一般能力的同时,显著减少了幻觉,使其成为构建可靠MLLMs的有效解决方案。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在生成内容时容易产生幻觉,即生成的内容与实际视觉信息不符。现有的缓解幻觉的方法,例如需要额外的监督训练数据或者在推理阶段引入额外的计算开销,限制了其应用。此外,简单地增强所有视觉tokens可能会引入噪声,干扰模型对关键视觉信息的关注。
核心思路:AIR的核心思路是自适应地增强与模型当前状态最相关的视觉信息,同时抑制冗余和噪声。通过减少视觉tokens的数量,并选择性地增强与模型隐藏状态对齐的patches,从而提高模型对关键视觉信息的关注度,减少幻觉的产生。这种方法无需重新训练模型,且计算开销较小。
技术框架:AIR框架主要包含两个模块:1) Prototype-based token reduction(基于原型的token减少):将大量的视觉tokens压缩成一个更小的、更具代表性的子集,以减少冗余信息。2) OT-guided patch reinforcement(OT引导的patch增强):使用最优传输(Optimal Transport, OT)算法来量化隐藏状态和patch嵌入之间的对齐程度,并根据对齐程度选择性地增强patches。这两个模块共同作用,使得模型能够更加关注重要的视觉信息。
关键创新:AIR的关键创新在于其自适应性。它不是简单地增强所有视觉tokens,而是根据模型的状态和视觉信息之间的关系,选择性地增强最相关的patches。这种自适应性使得AIR能够有效地减少幻觉,同时避免引入噪声。此外,AIR是一个免训练框架,可以直接应用于现有的MLLMs,无需额外的训练成本。
关键设计:Prototype-based token reduction使用聚类算法(例如K-means)将视觉tokens聚类成若干个原型,然后只保留这些原型tokens。OT-guided patch reinforcement使用最优传输算法计算隐藏状态和patch嵌入之间的相似度,并使用这个相似度作为权重来增强patches。具体来说,通过将选择的patches的信息注入到前馈网络层中来实现增强。论文中没有明确提及具体的参数设置和损失函数,但最优传输的计算是该方法的核心。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AIR框架在多个代表性的MLLMs上显著降低了幻觉。例如,在某些数据集上,AIR可以将幻觉率降低超过10%,同时保持了模型在其他任务上的性能。与现有的视觉增强方法相比,AIR在减少幻觉的同时,引入的计算开销更小。
🎯 应用场景
该研究成果可广泛应用于需要可靠视觉信息的多模态大语言模型应用中,例如图像描述生成、视觉问答、机器人导航等。通过减少幻觉,可以提高这些应用的准确性和可靠性,从而提升用户体验。未来,该方法可以进一步扩展到其他多模态任务和模型中。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language reasoning, yet they remain vulnerable to hallucination, where generated content deviates from visual evidence. Existing mitigation strategies either require costly supervision during training or introduce additional latency at inference time. Recent vision enhancement methods attempt to address this issue by reinforcing visual tokens during decoding, but they typically inject all tokens indiscriminately, which causes interference from background regions and distracts the model from critical cues. To overcome this challenge, we propose Adaptive Visual Reinforcement (AIR), a training-free framework for MLLMs. AIR consists of two components. Prototype-based token reduction condenses the large pool of visual tokens into a compact subset to suppress redundancy. OT-guided patch reinforcement quantifies the alignment between hidden states and patch embeddings to selectively integrate the most consistent patches into feed-forward layers. As a result, AIR enhances the model's reliance on salient visual information and effectively mitigates hallucination. Extensive experiments across representative MLLMs demonstrate that AIR substantially reduces hallucination while preserving general capabilities, establishing it as an effective solution for building reliable MLLMs.