TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

📄 arXiv: 2503.10602v2 📥 PDF

作者: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-03-13 (更新: 2025-03-21)

备注: 15 pages, 9 figures, the first two authors contributed equally

🔗 代码/项目: GITHUB


💡 一句话要点

TruthPrInt:通过潜在真值引导的预干预缓解LVLM中的对象幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 对象幻觉 内部状态 真值引导 预干预

📋 核心要点

  1. 大型视觉语言模型(LVLM)面临对象幻觉(OH)问题,现有方法缺乏对LVLM内部状态的深入理解。
  2. TruthPrInt通过探索LVLM内部状态,学习真值方向,并在推理时进行干预,从而缓解对象幻觉。
  3. 实验表明,TruthPrInt在领域内和领域外场景下,均显著优于现有方法,提升了LVLM的可靠性。

📝 摘要(中文)

对象幻觉(OH)已被认为是大型视觉语言模型(LVLM)中主要的可信赖性挑战之一。大型语言模型(LLM)的最新进展表明,内部状态(如隐藏状态)编码了生成响应的“整体真实性”。然而,LVLM中内部状态如何运作以及它们是否可以作为“逐token”幻觉指标(这对于缓解OH至关重要)的研究仍然不足。本文深入探讨了LVLM内部状态与OH问题的关系,发现:(1)LVLM内部状态是幻觉行为的高特异性逐token指标;(2)不同的LVLM在共同的潜在子空间中编码了幻觉的通用模式,表明存在各种LVLM共享的“通用真值方向”。基于这些发现,我们提出了真值引导的预干预(TruthPrInt),它首先学习LVLM解码的真值方向,然后在LVLM解码期间应用真值引导的推理时干预。我们进一步提出了ComnHallu,通过构建和对齐幻觉潜在子空间来增强跨LVLM和跨数据的幻觉检测可迁移性。我们在广泛的实验环境中评估了TruthPrInt,包括领域内和领域外场景,以及流行的LVLM和OH基准。实验结果表明,TruthPrInt显著优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLM)中普遍存在的对象幻觉(Object Hallucination, OH)问题。现有的LVLM在生成描述时,经常会产生与图像内容不符的对象,降低了模型的可信度。现有方法通常缺乏对LVLM内部状态的深入理解,难以有效识别和抑制幻觉。

核心思路:论文的核心思路是探索LVLM的内部状态,特别是隐藏状态,并将其作为幻觉的指标。通过分析这些内部状态,发现它们包含了关于生成内容真实性的信息。进一步,论文发现不同LVLM在共同的潜在子空间中编码了幻觉的通用模式,因此可以学习一个“通用真值方向”,用于指导LVLM的解码过程,从而减少幻觉。

技术框架:TruthPrInt包含两个主要阶段:真值方向学习和真值引导的推理时干预。首先,通过分析LVLM的内部状态,学习一个真值方向,该方向代表了生成真实内容的趋势。然后,在推理阶段,通过干预LVLM的解码过程,使其朝着真值方向移动,从而抑制幻觉的产生。此外,论文还提出了ComnHallu,用于增强跨LVLM和跨数据的幻觉检测可迁移性,通过构建和对齐幻觉潜在子空间来实现。

关键创新:论文最重要的技术创新点在于发现了LVLM内部状态与对象幻觉之间的关系,并利用这种关系来指导LVLM的解码过程。与现有方法相比,TruthPrInt不是简单地依赖外部知识或后处理技术,而是直接干预LVLM的内部运作,从根本上减少幻觉的产生。此外,ComnHallu的提出增强了模型在不同LVLM和数据集上的泛化能力。

关键设计:TruthPrInt的关键设计包括:(1) 如何有效地从LVLM的内部状态中学习真值方向,这可能涉及到特定的损失函数和优化算法;(2) 如何在推理时进行干预,以确保解码过程朝着真值方向移动,同时保持生成内容的多样性;(3) ComnHallu中幻觉潜在子空间的构建和对齐方法,这可能涉及到特定的降维技术和对齐策略。具体的参数设置、损失函数和网络结构等细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TruthPrInt在多个基准测试中显著优于现有方法,证明了其有效性。实验结果表明,TruthPrInt不仅在领域内数据上表现出色,而且在领域外数据上也具有良好的泛化能力。具体的性能提升数据需要在论文中进一步查找,但总体而言,TruthPrInt为缓解LVLM中的对象幻觉问题提供了一种有效的解决方案。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉语言理解的场景,例如自动驾驶、智能客服、医疗诊断等。通过减少LVLM中的对象幻觉,可以提高这些应用的安全性和可靠性,增强用户信任度。未来,该技术有望进一步推广到其他多模态任务中,提升人工智能系统的整体性能。

📄 摘要(原文)

Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the "overall truthfulness" of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as "per-token" hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states in relation to OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist "generic truthful directions" shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose ComnHallu to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.