Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering

📄 arXiv: 2503.20504v1 📥 PDF

作者: Zehui Liao, Shishuai Hu, Ke Zou, Huazhu Fu, Liangli Zhen, Yong Xia

分类: cs.CV

发布日期: 2025-03-26

备注: 11 pages, 2 figures


💡 一句话要点

提出视觉增强语义熵(VASE)用于医疗VQA中幻觉检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗视觉问答 幻觉检测 语义熵 多模态学习 视觉增强

📋 核心要点

  1. 医疗VQA模型易产生幻觉,现有语义熵方法在视觉扰动强度上存在临床有效性和模型敏感性的矛盾。
  2. 提出视觉增强语义熵VASE,通过对比微弱扰动和强烈扰动下的语义分布,放大视觉信息的影响。
  3. 在两个医疗VQA数据集上,VASE显著优于现有幻觉检测方法,验证了其有效性。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在医疗视觉问答(VQA)中展现出巨大潜力。然而,它们仍然容易产生幻觉——与输入图像相矛盾的错误回答,这给临床决策带来重大风险。检测这些幻觉对于建立临床医生和患者对MLLMs的信任至关重要,从而实现它们在现实世界中的应用。现有的幻觉检测方法,特别是语义熵(SE),已经展示了对LLMs有希望的幻觉检测能力。然而,通过结合视觉扰动将SE应用于医疗MLLMs面临一个困境。微弱的扰动保留了图像内容并确保了临床有效性,但可能被医疗MLLMs忽略,因为它们倾向于过度依赖语言先验。相比之下,强烈的扰动会扭曲重要的诊断特征,从而损害临床解释。为了解决这个问题,我们提出了视觉增强语义熵(VASE),它结合了微弱的图像转换并放大了视觉输入的影响,以提高医疗VQA中的幻觉检测。我们首先估计在微弱视觉转换下的语义预测分布以保持临床有效性,然后通过将该分布与从扭曲图像导出的分布进行对比来放大视觉影响。所得分布的熵被估计为VASE。在两个医疗开放式VQA数据集上的实验表明,VASE始终优于现有的幻觉检测方法。

🔬 方法详解

问题定义:论文旨在解决医疗视觉问答(VQA)系统中,多模态大语言模型(MLLMs)产生的幻觉问题。现有基于语义熵(SE)的幻觉检测方法在应用于医疗领域时面临挑战:微弱的视觉扰动虽然能保持图像的临床有效性,但可能不足以影响过度依赖语言先验的MLLMs;而强烈的扰动则可能扭曲关键的诊断特征,损害临床解释。因此,如何在保持临床有效性的前提下,有效利用视觉信息进行幻觉检测是亟待解决的问题。

核心思路:论文的核心思路是通过对比在不同视觉扰动强度下的语义预测分布,来放大视觉信息对幻觉检测的影响。具体来说,首先使用微弱的视觉变换,尽可能保持图像的临床有效性,并估计相应的语义预测分布。然后,使用更强的视觉扰动来扭曲图像,并估计另一个语义预测分布。通过对比这两个分布,可以突出视觉信息的变化对模型预测的影响,从而更有效地检测幻觉。

技术框架:VASE方法的整体框架包含以下几个主要步骤:1) 对输入图像进行微弱的视觉变换,生成扰动后的图像;2) 使用医疗VQA模型对原始图像和扰动后的图像分别进行问答,得到两个语义预测分布;3) 对输入图像进行强烈的视觉变换,生成扭曲后的图像;4) 使用医疗VQA模型对扭曲后的图像进行问答,得到另一个语义预测分布;5) 通过对比微弱扰动和强烈扰动下的语义预测分布,计算视觉增强语义熵(VASE);6) 使用VASE作为幻觉检测的指标,VASE值越高,表示模型产生幻觉的可能性越大。

关键创新:VASE方法的关键创新在于其视觉增强机制。与传统的语义熵方法不同,VASE不是直接使用单一的视觉扰动来估计语义预测分布,而是通过对比微弱扰动和强烈扰动下的分布,来放大视觉信息的影响。这种方法可以在保持临床有效性的前提下,更有效地利用视觉信息进行幻觉检测。

关键设计:VASE方法的关键设计包括:1) 使用微弱的图像变换(例如,轻微的旋转、缩放或颜色调整)来保持图像的临床有效性;2) 使用强烈的图像变换(例如,严重的模糊、噪声或遮挡)来扭曲图像;3) 使用KL散度或JS散度等距离度量来对比微弱扰动和强烈扰动下的语义预测分布;4) 将对比得到的距离作为视觉增强的权重,用于计算最终的语义熵。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在两个医疗开放式VQA数据集上,VASE方法在幻觉检测方面始终优于现有的方法。具体来说,VASE在AUROC指标上取得了显著的提升,表明其能够更准确地区分真实答案和幻觉答案。例如,在某个数据集上,VASE相比于基线方法提升了5%的AUROC,证明了其有效性。

🎯 应用场景

该研究成果可应用于提升医疗视觉问答系统的可靠性和安全性,辅助医生进行诊断决策,降低误诊风险。通过有效检测模型产生的幻觉,增强医生和患者对AI系统的信任,促进医疗AI的实际应用和推广。未来可扩展到其他需要高可靠性的多模态应用场景,例如自动驾驶、金融风控等。

📄 摘要(原文)

Multimodal large language models (MLLMs) have demonstrated significant potential in medical Visual Question Answering (VQA). Yet, they remain prone to hallucinations-incorrect responses that contradict input images, posing substantial risks in clinical decision-making. Detecting these hallucinations is essential for establishing trust in MLLMs among clinicians and patients, thereby enabling their real-world adoption. Current hallucination detection methods, especially semantic entropy (SE), have demonstrated promising hallucination detection capacity for LLMs. However, adapting SE to medical MLLMs by incorporating visual perturbations presents a dilemma. Weak perturbations preserve image content and ensure clinical validity, but may be overlooked by medical MLLMs, which tend to over rely on language priors. In contrast, strong perturbations can distort essential diagnostic features, compromising clinical interpretation. To address this issue, we propose Vision Amplified Semantic Entropy (VASE), which incorporates weak image transformations and amplifies the impact of visual input, to improve hallucination detection in medical VQA. We first estimate the semantic predictive distribution under weak visual transformations to preserve clinical validity, and then amplify visual influence by contrasting this distribution with that derived from a distorted image. The entropy of the resulting distribution is estimated as VASE. Experiments on two medical open-ended VQA datasets demonstrate that VASE consistently outperforms existing hallucination detection methods.