VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering

📄 arXiv: 2605.20772v1 📥 PDF

作者: Jiayi Chen, Benteng Ma, Zehui Liao, Winston Chong, Yasmeen George, Jianfei Cai

分类: cs.CV

发布日期: 2026-05-20

备注: Early accepted by MICCAI 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出VIHD,通过视觉干预检测医学VQA中多模态大语言模型的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 幻觉检测 多模态大语言模型 视觉干预 语义熵

📋 核心要点

  1. 现有医学VQA模型易产生幻觉,现有检测方法依赖外部扰动,忽略了视觉token与生成token间的跨模态依赖。
  2. VIHD通过视觉依赖性探测定位关键解码层,进行视觉token掩码干预,校准语义熵,以此检测幻觉。
  3. 实验表明,VIHD在多个医学VQA数据集上超越现有方法,验证了细粒度视觉依赖性对幻觉检测的重要性。

📝 摘要(中文)

医学多模态大语言模型(MLLM)在辅助诊断方面展现出潜力,但仍频繁生成看似合理却缺乏视觉证据的幻觉响应。这种幻觉对临床决策构成风险,需要有效检测。现有内省式检测方法主要通过分析模型对原始或扰动输入的响应来进行不确定性估计或逻辑验证。然而,这种外部扰动通常是启发式的且与上下文无关,忽略了解码过程中生成的token与相关视觉token之间的内部跨模态依赖关系。为了解决这个问题,我们提出了一种基于视觉干预的幻觉检测方法VIHD,该方法利用有针对性的视觉token掩码来校准语义熵,从而更有效地检测幻觉。VIHD通过视觉依赖性探测(VDP)定位视觉主导的解码器层,通过token掩码执行视觉干预解码(VID)以校准语义分布,并将由此产生的校准语义熵(CSE)量化为可靠的幻觉信号。在两个医学MLLM的三个医学VQA基准上的大量实验表明,VIHD始终优于最先进的方法,突显了细粒度视觉依赖性对于幻觉检测的重要性。代码将在https://github.com/Jiayi-Chen-AU/VIHD提供。

🔬 方法详解

问题定义:医学视觉问答(VQA)模型,特别是基于多模态大语言模型(MLLM)的医学VQA模型,容易产生幻觉,即生成在语言上看似合理但缺乏视觉证据支持的答案。现有幻觉检测方法主要依赖于对输入图像或文本进行扰动,然后观察模型输出的变化,以此来评估模型的不确定性或进行逻辑验证。然而,这些扰动策略通常是启发式的,缺乏对模型内部跨模态依赖关系的考虑,特别是忽略了生成文本token与视觉token之间的细粒度关联。

核心思路:VIHD的核心思路是通过有针对性地干预视觉信息,来校准模型在生成答案时的语义熵,从而更准确地检测幻觉。具体来说,VIHD首先识别出对答案生成影响最大的视觉token,然后通过掩码这些token来观察模型输出的变化。如果模型在缺乏关键视觉信息的情况下仍然生成看似合理的答案,则表明模型可能存在幻觉。这种方法的核心在于利用视觉信息作为一种“锚点”,来评估模型生成答案的真实性。

技术框架:VIHD主要包含三个阶段:1) 视觉依赖性探测(VDP):该阶段旨在识别出对答案生成具有最大影响的视觉token所在的解码器层。通过分析不同解码器层对视觉信息的依赖程度,确定视觉主导层。2) 视觉干预解码(VID):在该阶段,对视觉主导层中的视觉token进行掩码,模拟视觉信息缺失的情况。然后,模型在掩码后的视觉输入下重新生成答案。3) 校准语义熵(CSE)计算:该阶段计算模型在原始视觉输入和掩码视觉输入下生成的答案的语义熵。通过比较两种情况下的语义熵,可以量化模型对视觉信息的依赖程度,从而判断是否存在幻觉。

关键创新:VIHD的关键创新在于其细粒度的视觉干预策略。与现有方法中使用的全局或随机扰动不同,VIHD通过视觉依赖性探测(VDP)有针对性地选择视觉token进行掩码,从而更精确地评估模型对视觉信息的依赖程度。此外,VIHD将校准语义熵(CSE)作为幻觉信号,能够更有效地量化模型生成答案的真实性。

关键设计:在视觉依赖性探测(VDP)阶段,可以使用梯度信息或注意力机制来评估不同解码器层对视觉信息的依赖程度。在视觉干预解码(VID)阶段,可以使用不同的掩码策略,例如随机掩码或基于重要性的掩码。在校准语义熵(CSE)计算阶段,可以使用不同的熵计算方法,例如香农熵或交叉熵。具体的参数设置和网络结构需要根据具体的模型和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在三个医学VQA基准测试中,VIHD始终优于现有最先进的幻觉检测方法。实验结果表明,VIHD能够更准确地识别模型产生的幻觉,显著提升了幻觉检测的性能。例如,在某个数据集上,VIHD的性能比最佳基线方法提高了X%。这些结果验证了细粒度视觉依赖性对于幻觉检测的重要性。

🎯 应用场景

VIHD可应用于医学VQA系统的幻觉检测,提高诊断辅助的可靠性。通过识别并纠正模型产生的幻觉,可以减少误诊风险,提升临床决策的安全性。该研究对开发更值得信赖的医学AI系统具有重要意义,并有望推广到其他需要高可靠性的多模态应用场景。

📄 摘要(原文)

While medical Multimodal Large Language Models (MLLMs) have shown promise in assisting diagnosis, they still frequently generate hallucinated responses that appear linguistically plausible but lack visual evidence. Such hallucinations pose risks to clinical decision-making and necessitate effective detection. Existing introspective detection methods primarily perform uncertainty estimation or logical verification by analyzing model responses conditioned on original or perturbed inputs. However, such external perturbations are often heuristic and context-agnostic, which overlooks the internal cross-modal dependency between generated tokens and related visual tokens during decoding. To address this issue, we propose VIHD, a Visual Intervention-based Hallucination Detection method that leverages targeted visual token masking to calibrate semantic entropy for more effective hallucination detection. VIHD locates visually dominant decoder layers via Visual Dependency Probing (VDP), executes Visual Intervention Decoding (VID) via token masking to calibrate the semantic distribution, and quantifies the resulting Calibrated Semantic Entropy (CSE) as a reliable hallucination signal. Extensive experiments on three medical VQA benchmarks with two medical MLLMs demonstrate that VIHD consistently outperforms state-of-the-art methods, underscoring the importance of fine-grained visual dependency for hallucination detection. The code will be available at https://github.com/Jiayi-Chen-AU/VIHD