Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation
作者: Yubo Jiang, Xin Yang, Abudukelimu Wuerkaixi, Zheming Yuan, Xuxin Cheng, Fengying Xie, Zhiguo Jiang, Cao Liu, Ke Zeng, Haopeng Zhang
分类: cs.CV, cs.AI
发布日期: 2026-04-27
备注: 9 pages, 8 figures, Findings of ACL 2025
💡 一句话要点
提出Positive-and-Negative Decoding框架,缓解视觉语言模型中的对象幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 对象幻觉 注意力机制 推理框架 视觉保真度
📋 核心要点
- 现有视觉语言模型过度依赖语言先验,导致生成内容与视觉现实不符的对象幻觉问题。
- 提出Positive-and-Negative Decoding框架,通过正负双路径对比,增强视觉特征的权重,抑制语言先验的影响。
- 实验表明,该方法在多个基准测试中显著减少了对象幻觉,并提升了描述细节,且无需模型再训练。
📝 摘要(中文)
视觉语言模型(VLM)由于过度依赖语言先验,经常产生与视觉现实相悖的对象幻觉。本文提出了一种名为Positive-and-Negative Decoding (PND)的训练无关推理框架,直接干预解码过程以增强视觉保真度。PND的动机源于VLM中存在的关键注意力缺陷,即视觉特征的权重被经验性地低估。该框架通过双路径对比来纠正这一问题:正路径利用多层注意力放大显著的视觉证据,鼓励生成忠实的描述,直接对抗注意力缺陷;同时,负路径识别并降低核心对象的特征,创建一个强烈的反事实,惩罚无根据的、先验主导的生成。通过在每一步对比模型从这两个角度的输出,PND引导生成不仅在语言上合理,而且在视觉上真实的文本。在POPE、MME和CHAIR等基准测试上的大量实验表明,PND实现了最先进的性能,准确率提高了高达6.5%,显著减少了对象幻觉,同时也增强了描述细节,且无需任何模型再训练。该方法有效地推广到包括LLaVA、InstructBLIP、InternVL和Qwen-VL在内的各种VLM架构。
🔬 方法详解
问题定义:视觉语言模型(VLM)在生成文本描述时,常常会产生与图像内容不符的对象幻觉,即生成图像中不存在的对象或属性。现有方法过度依赖语言先验知识,而忽略了图像中的视觉信息,导致生成结果缺乏视觉真实性。这种现象限制了VLM在需要高度视觉保真度的应用场景中的应用。
核心思路:本文的核心思路是通过在解码过程中引入正负双路径对比,来增强视觉特征的权重,并抑制语言先验的影响。正路径放大显著的视觉证据,鼓励生成忠实的描述;负路径则降低核心对象的特征,惩罚无根据的生成。通过对比两条路径的输出,引导模型生成视觉上真实的文本。
技术框架:PND框架主要包含两个路径:正路径和负路径。正路径通过多层注意力机制,增强图像中显著视觉特征的权重,从而鼓励模型生成与图像内容一致的描述。负路径则通过降低图像中核心对象的特征,创建一个反事实场景,迫使模型避免生成依赖于这些被弱化特征的描述。在解码的每一步,PND都会对比正负路径的输出,并根据对比结果调整生成概率,从而引导模型生成视觉上真实的文本。
关键创新:PND的关键创新在于其训练无关的推理框架,可以直接应用于现有的VLM,无需进行额外的模型训练。通过正负双路径对比,PND能够有效地平衡语言先验和视觉信息,从而显著减少对象幻觉。此外,PND还具有良好的泛化能力,可以应用于多种不同的VLM架构。
关键设计:PND框架的关键设计包括:1) 多层注意力机制,用于增强正路径中的视觉特征权重;2) 特征弱化策略,用于创建负路径中的反事实场景;3) 对比函数,用于比较正负路径的输出,并调整生成概率。具体的参数设置和网络结构取决于所使用的VLM架构,但PND框架本身具有一定的灵活性,可以适应不同的模型。
🖼️ 关键图片
📊 实验亮点
PND在POPE、MME和CHAIR等基准测试中取得了显著的性能提升,最高准确率提升达6.5%。实验结果表明,PND能够有效地减少对象幻觉,并增强描述细节。值得注意的是,PND无需任何模型再训练,即可应用于多种不同的VLM架构,展现了良好的泛化能力。
🎯 应用场景
该研究成果可广泛应用于需要高度视觉保真度的视觉语言任务中,例如图像描述生成、视觉问答、图像编辑等。通过减少对象幻觉,可以提高生成内容的可靠性和实用性,从而提升用户体验。未来,该方法有望应用于自动驾驶、医疗影像分析等领域,为相关应用提供更准确、可靠的视觉信息。
📄 摘要(原文)
Vision-Language Models (VLMs) are frequently undermined by object hallucination--generating content that contradicts visual reality--due to an over-reliance on linguistic priors. We introduce Positive-and-Negative Decoding (PND), a training-free inference framework that intervenes directly in the decoding process to enforce visual fidelity. PND is motivated by our key finding of a critical attention deficit in VLMs, where visual features are empirically under-weighted. Our framework corrects this via a dual-path contrast: The positive path amplifies salient visual evidence using multi-layer attention to encourage faithful descriptions, directly counteracting the attention deficit. Simultaneously, the negative path identifies and degrades the core object's features to create a strong counterfactual, which penalizes ungrounded, prior-dominant generation. By contrasting the model's outputs from these two perspectives at each step, PND steers generation towards text that is not just linguistically probable, but visually factual. Extensive experiments on benchmarks like POPE, MME, and CHAIR show that PND achieves state-of-the-art performance with up to 6.5% accuracy improvement, substantially reducing object hallucination while also enhancing descriptive detail--all without requiring any model retraining. The method generalizes effectively across diverse VLM architectures including LLaVA, InstructBLIP, InternVL, and Qwen-VL.