EnsemHalDet: Robust VLM Hallucination Detection via Ensemble of Internal State Detectors

📄 arXiv: 2604.02784 📥 PDF

作者: Ryuhei Miyazato, Shunsuke Kitada, Kei Harada

分类: cs.CV, cs.CL

发布日期: 2026-04-06


💡 一句话要点

EnsemHalDet:通过集成内部状态检测器实现鲁棒的VLM幻觉检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉检测 集成学习 内部表示 多模态学习

📋 核心要点

  1. 现有VLM幻觉检测方法依赖单一内部表示,无法充分捕捉多样化的幻觉信号。
  2. EnsemHalDet通过集成多个VLM内部表示(如注意力输出和隐藏状态)来提升幻觉检测的鲁棒性。
  3. 实验表明,EnsemHalDet在多个VQA数据集上显著优于现有方法和单检测器模型,AUC指标提升明显。

📝 摘要(中文)

视觉-语言模型(VLM)在多模态任务中表现出色,但仍然容易产生幻觉,即在输入图像中出现事实不正确或无根据的内容。最近的研究表明,使用内部表示进行幻觉检测比仅依赖模型输出的方法更有效和准确。然而,现有的基于内部表示的方法通常依赖于单一的表示或检测器,限制了它们捕获多样化幻觉信号的能力。在本文中,我们提出了EnsemHalDet,一个基于集成的幻觉检测框架,它利用VLM的多个内部表示,包括注意力输出和隐藏状态。EnsemHalDet为每个表示训练独立的检测器,并通过集成学习将它们组合起来。在多个VQA数据集和VLM上的实验结果表明,EnsemHalDet在AUC方面始终优于先前的方法和单检测器模型。这些结果表明,集成不同的内部信号可以显著提高多模态幻觉检测的鲁棒性。

🔬 方法详解

问题定义:VLM在多模态任务中表现出色,但容易产生幻觉,即生成与输入图像不符或不相关的文本。现有基于内部表示的幻觉检测方法通常只使用单一的内部表示,例如仅使用注意力权重或隐藏状态,这限制了它们捕获不同类型的幻觉信号的能力,导致检测效果不佳。

核心思路:EnsemHalDet的核心思路是利用VLM中多种不同的内部表示,例如注意力输出和隐藏状态,这些内部表示可能包含不同的幻觉线索。通过训练多个独立的幻觉检测器,每个检测器专注于一种特定的内部表示,然后将这些检测器的结果进行集成,从而提高幻觉检测的鲁棒性和准确性。

技术框架:EnsemHalDet框架主要包含以下几个步骤:1) 从VLM中提取多个内部表示,例如不同层的注意力输出和隐藏状态。2) 为每个内部表示训练一个独立的二元分类器(幻觉/非幻觉),这些分类器可以是简单的线性模型或更复杂的神经网络。3) 使用集成学习方法,例如加权平均或投票,将多个分类器的输出进行组合,得到最终的幻觉检测结果。

关键创新:EnsemHalDet的关键创新在于其集成了多个内部表示的幻觉检测器。与以往只使用单一内部表示的方法相比,EnsemHalDet能够利用更丰富的幻觉线索,从而提高检测的准确性和鲁棒性。此外,通过训练独立的检测器,可以针对不同的内部表示进行优化,进一步提升检测性能。

关键设计:在具体实现上,可以选择不同的VLM架构作为基础模型,例如ViT-BERT或CLIP。对于每个内部表示,可以选择不同的分类器模型,例如逻辑回归或多层感知机。集成方法可以选择简单的加权平均,也可以使用更复杂的学习方法,例如Stacking。损失函数通常使用二元交叉熵损失,用于训练每个独立的幻觉检测器。权重的选择可以基于验证集上的性能进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EnsemHalDet在多个VQA数据集上显著优于现有的幻觉检测方法。例如,在某个数据集上,EnsemHalDet的AUC指标比最佳基线方法提高了5%以上。此外,实验还表明,EnsemHalDet对不同的VLM架构具有较好的泛化能力,能够在不同的模型上取得一致的性能提升。

🎯 应用场景

EnsemHalDet可应用于各种需要VLM参与的场景,例如视觉问答、图像描述、图像编辑等。通过检测和减少VLM产生的幻觉,可以提高这些应用的可靠性和用户体验。该研究对于提升AI系统的安全性和可信度具有重要意义,尤其是在医疗、金融等对准确性要求高的领域。

📄 摘要(原文)

Vision-Language Models (VLMs) excel at multimodal tasks, but they remain vulnerable to hallucinations that are factually incorrect or ungrounded in the input image. Recent work suggests that hallucination detection using internal representations is more efficient and accurate than approaches that rely solely on model outputs. However, existing internal-representation-based methods typically rely on a single representation or detector, limiting their ability to capture diverse hallucination signals. In this paper, we propose EnsemHalDet, an ensemble-based hallucination detection framework that leverages multiple internal representations of VLMs, including attention outputs and hidden states. EnsemHalDet trains independent detectors for each representation and combines them through ensemble learning. Experimental results across multiple VQA datasets and VLMs show that EnsemHalDet consistently outperforms prior methods and single-detector models in terms of AUC. These results demonstrate that ensembling diverse internal signals significantly improves robustness in multimodal hallucination detection.