Deterministic Hallucination Detection in Medical VQA via Confidence-Evidence Bayesian Gain

📄 arXiv: 2603.21693v1 📥 PDF

作者: Mohammad Asadi, Tahoura Nedaee, Jack W. O'Sullivan, Euan Ashley, Ehsan Adeli

分类: cs.AI

发布日期: 2026-03-23


💡 一句话要点

提出CEBaG,一种确定性的医学VQA幻觉检测方法,无需采样和外部模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学VQA 幻觉检测 多模态学习 置信度估计 贝叶斯增益

📋 核心要点

  1. 医学VQA中的幻觉问题严重影响临床应用,现有方法计算成本高,依赖外部模型。
  2. CEBaG利用模型自身log-probabilities中的置信度和视觉证据敏感性进行幻觉检测。
  3. CEBaG在多个医学VQA数据集上取得了显著的性能提升,且无需采样和外部模型。

📝 摘要(中文)

多模态大型语言模型(MLLM)在医学视觉问答(VQA)方面显示出强大的潜力,但它们仍然容易产生幻觉,即生成与输入图像相矛盾的响应,这在临床环境中构成严重风险。现有的幻觉检测方法,如语义熵(SE)和视觉增强语义熵(VASE),每个样本需要10到20个随机生成,并结合外部自然语言推理模型进行语义聚类,这使得它们计算成本高昂且难以在实践中部署。我们观察到,幻觉响应直接在模型自身的log-probabilities中表现出独特的特征:不一致的token级别置信度和对视觉证据的弱敏感性。基于此,我们提出置信度-证据贝叶斯增益(CEBaG),一种确定性的幻觉检测方法,不需要随机抽样,不需要外部模型,也不需要特定于任务的超参数。CEBaG结合了两个互补的信号:token级别的预测方差,它捕获了响应token中不一致的置信度,以及证据幅度,它衡量了图像相对于仅文本推理,对每个token的预测产生了多大的影响。在四个医学MLLM和三个VQA基准(16个实验设置)上评估,CEBaG在16个设置中的13个中实现了最高的AUC,并且平均比VASE提高了8个AUC点,同时是完全确定性的和自包含的。代码将在接受后提供。

🔬 方法详解

问题定义:论文旨在解决医学视觉问答(VQA)中多模态大型语言模型(MLLM)产生的幻觉问题。现有的幻觉检测方法,如语义熵(SE)和视觉增强语义熵(VASE),需要进行多次随机采样和使用外部自然语言推理模型,计算成本高昂,难以部署到实际临床环境中。这些方法的痛点在于效率低、依赖外部资源,且难以保证检测的确定性。

核心思路:论文的核心思路是观察到幻觉响应在模型自身的token级别 log-probabilities 中表现出独特的特征:token级别置信度不一致,以及对视觉证据的敏感性较弱。因此,可以通过分析模型自身输出的置信度和对图像信息的依赖程度来检测幻觉,而无需额外的随机采样或外部模型。

技术框架:CEBaG (Confidence-Evidence Bayesian Gain) 方法主要包含两个互补的信号:token级别的预测方差和证据幅度。预测方差用于衡量响应token中置信度的一致性,方差越大表示模型对不同token的预测越不确定。证据幅度用于衡量图像信息对每个token预测的影响,如果图像信息对预测的影响较小,则表明模型可能产生了幻觉。CEBaG 将这两个信号结合起来,利用贝叶斯增益来判断响应是否为幻觉。

关键创新:CEBaG 的最重要创新点在于它是一种确定性的幻觉检测方法,不需要随机抽样,也不需要外部模型。与现有方法相比,CEBaG 直接利用模型自身的输出进行分析,避免了额外的计算开销和对外部资源的依赖。此外,CEBaG 不需要针对特定任务进行超参数调整,具有更好的通用性和可部署性。

关键设计:CEBaG 的关键设计在于如何量化 token 级别的预测方差和证据幅度。预测方差通过计算每个 token 的 log-probability 的方差来衡量。证据幅度通过比较有图像输入和没有图像输入时,模型对每个 token 的预测概率的变化来衡量。贝叶斯增益用于将这两个信号结合起来,其具体计算公式未知,需要在论文公开后才能确定。

🖼️ 关键图片

fig_0

📊 实验亮点

CEBaG 在三个医学 VQA 基准测试中,相较于 VASE 平均提升了 8 个 AUC 点,并在 16 个实验设置中的 13 个中取得了最高的 AUC。该方法无需随机抽样和外部模型,具有更高的效率和可部署性,同时保持了较高的检测精度。

🎯 应用场景

该研究成果可应用于医疗诊断辅助系统,提高医学VQA系统的可靠性和安全性,减少因模型幻觉导致的误诊风险。通过检测和过滤掉幻觉响应,可以提升医生对AI辅助诊断的信任度,促进AI技术在医疗领域的广泛应用。

📄 摘要(原文)

Multimodal large language models (MLLMs) have shown strong potential for medical Visual Question Answering (VQA), yet they remain prone to hallucinations, defined as generating responses that contradict the input image, posing serious risks in clinical settings. Current hallucination detection methods, such as Semantic Entropy (SE) and Vision-Amplified Semantic Entropy (VASE), require 10 to 20 stochastic generations per sample together with an external natural language inference model for semantic clustering, making them computationally expensive and difficult to deploy in practice. We observe that hallucinated responses exhibit a distinctive signature directly in the model's own log-probabilities: inconsistent token-level confidence and weak sensitivity to visual evidence. Based on this observation, we propose Confidence-Evidence Bayesian Gain (CEBaG), a deterministic hallucination detection method that requires no stochastic sampling, no external models, and no task-specific hyperparameters. CEBaG combines two complementary signals: token-level predictive variance, which captures inconsistent confidence across response tokens, and evidence magnitude, which measures how much the image shifts per-token predictions relative to text-only inference. Evaluated across four medical MLLMs and three VQA benchmarks (16 experimental settings), CEBaG achieves the highest AUC in 13 of 16 settings and improves over VASE by 8 AUC points on average, while being fully deterministic and self-contained. The code will be made available upon acceptance.