Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models
作者: Kassoum Sanogo, Renzo Ardiccioni
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-12-08
备注: 24 pages, 3 figures, 2 tables. Training-free self-correction framework for vision-language models. Code and implementation details will be released at: https://github.com/kassoumsanogo1/self-correcting-vlm-re-Attention.git
期刊: The 4th National and International Academic Conference Celebrating the 20th Anniversary of Rajapruk University (2026)
💡 一句话要点
提出一种无训练的自校正框架,用于减少视觉-语言模型中的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 幻觉减少 自校正框架 不确定性量化 视觉重注意
📋 核心要点
- 视觉-语言模型容易产生幻觉,生成看似合理但错误的图像内容描述,降低了模型的可信度。
- 提出一种无需训练的自校正框架,通过不确定性引导的视觉重注意机制,迭代优化模型响应,减少幻觉。
- 实验表明,该方法在POPE和MMHAL BENCH基准测试中,显著降低了幻觉率,并提高了对象存在准确率。
📝 摘要(中文)
视觉-语言模型(VLMs)经常生成看似合理但关于图像内容不正确的幻觉内容。我们提出了一种无需训练的自校正框架,使VLMs能够通过不确定性引导的视觉重注意迭代地改进响应。我们的方法结合了多维不确定性量化(token熵、注意力分散、语义一致性、claim置信度)与对未充分探索区域的注意力引导裁剪。该框架完全在冻结的、预训练的VLMs上运行,不需要梯度更新。我们使用Qwen2.5-VL-7B架构在POPE和MMHAL BENCH基准上验证了我们的方法。实验结果表明,与基线相比,我们的方法将幻觉率降低了9.8个百分点,同时在对抗性分割上将对象存在准确率提高了4.7个百分点。此外,定性分析证实,在标准解码失败的情况下,不确定性引导的重注意成功地将校正建立在视觉证据的基础上。我们使用Qwen2.5-VL-7B验证了我们的方法,并计划在未来的版本中扩展到不同的架构。我们发布了我们的代码和方法,以促进未来对可信多模态系统的研究。
🔬 方法详解
问题定义:视觉-语言模型(VLMs)在生成文本描述时,经常会产生与图像内容不符的“幻觉”,即生成看似合理但实际上错误的描述。现有方法通常需要大量的训练数据和计算资源来缓解这个问题,并且泛化能力可能有限。因此,如何在不进行额外训练的情况下,减少VLMs的幻觉是一个重要的挑战。
核心思路:该论文的核心思路是利用模型自身的不确定性信息来引导视觉注意力的重新分配,从而迭代地修正模型生成的文本描述。通过识别模型对哪些图像区域的理解不够确定,并重新关注这些区域,可以提高模型对图像内容的理解,减少幻觉的产生。
技术框架:该框架主要包含以下几个阶段:1) 初始文本生成:使用预训练的VLM生成初始的文本描述。2) 不确定性量化:计算初始文本描述中每个token的不确定性,包括token熵、注意力分散、语义一致性和claim置信度。3) 注意力引导的裁剪:根据不确定性最高的token,裁剪图像中与其相关的区域,并将其作为新的输入。4) 迭代修正:使用裁剪后的图像作为输入,VLM重新生成文本描述,并重复上述步骤,直到满足停止条件。
关键创新:该方法最大的创新点在于提出了一个无需训练的自校正框架。它完全依赖于预训练的VLM,不需要额外的训练数据或梯度更新。通过利用模型自身的不确定性信息,实现了对模型输出的迭代修正,从而有效地减少了幻觉。这与传统的需要大量训练数据和计算资源的方法形成了鲜明对比。
关键设计:在不确定性量化方面,论文综合考虑了token熵、注意力分散、语义一致性和claim置信度等多个维度,以更全面地评估模型的不确定性。在注意力引导的裁剪方面,论文根据不确定性最高的token,裁剪图像中与其相关的区域,并将其作为新的输入,从而使模型能够重新关注那些理解不够确定的区域。此外,迭代修正的停止条件也是一个关键的设计,需要根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在POPE和MMHAL BENCH基准测试中,与基线相比,幻觉率降低了9.8个百分点,对象存在准确率提高了4.7个百分点。这些结果表明,该方法能够有效地减少视觉-语言模型中的幻觉,并提高模型的可靠性。此外,定性分析也证实了该方法能够成功地将校正建立在视觉证据的基础上。
🎯 应用场景
该研究成果可应用于各种需要可信赖视觉-语言模型的场景,例如:自动驾驶、医疗诊断、智能客服、安防监控等。通过减少模型产生的幻觉,可以提高系统的可靠性和安全性,避免因错误信息而导致的潜在风险。未来,该方法可以进一步扩展到其他多模态任务中,例如视频理解、语音识别等,从而构建更加可信赖的人工智能系统。
📄 摘要(原文)
Vision-language models (VLMs) frequently generate hallucinated content plausible but incorrect claims about image content. We propose a training-free self-correction framework enabling VLMs to iteratively refine responses through uncertainty-guided visual re-attention. Our method combines multidimensional uncertainty quantification (token entropy, attention dispersion, semantic consistency, claim confidence) with attention-guided cropping of under-explored regions. Operating entirely with frozen, pretrained VLMs, our framework requires no gradient updates. We validate our approach on the POPE and MMHAL BENCH benchmarks using the Qwen2.5-VL-7B [23] architecture. Experimental results demonstrate that our method reduces hallucination rates by 9.8 percentage points compared to the baseline, while improving object existence accuracy by 4.7 points on adversarial splits. Furthermore, qualitative analysis confirms that uncertainty-guided re-attention successfully grounds corrections in visual evidence where standard decoding fails. We validate our approach on Qwen2.5-VL-7B [23], with plans to extend validation across diverse architectures in future versions. We release our code and methodology to facilitate future research in trustworthy multimodal systems.