Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs
作者: Dung Nguyen, Minh Khoi Ho, Huy Ta, Thanh Tam Nguyen, Qi Chen, Kumar Rav, Quy Duong Dang, Satwik Ramchandre, Son Lam Phung, Zhibin Liao, Minh-Son To, Johan Verjans, Phi Le Nguyen, Vu Minh Hieu Phan
分类: cs.CV
发布日期: 2025-04-30 (更新: 2025-07-15)
备注: Accepted at Joint Conference on Artificial Intelligence (IJCAI) 2025
💡 一句话要点
提出HEAL-MedVQA基准与LobA框架,提升医学多模态LLM的定位能力与抗幻觉性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学多模态模型 视觉定位 幻觉评估 VQA HEAL-MedVQA Localize-before-Answer 病灶分割
📋 核心要点
- 现有医学多模态LLM在视觉定位推理方面存在不足,易于产生与图像证据不符的幻觉。
- 提出Localize-before-Answer (LobA)框架,通过定位病灶区域并进行自我提示,增强模型对相关区域的关注。
- 在HEAL-MedVQA基准测试中,LobA框架显著优于现有生物医学LMM,提升了医学VQA的准确性和可靠性。
📝 摘要(中文)
医学大型多模态模型(LMMs)在医学数据解释方面表现出卓越的能力。然而,这些模型经常产生与源证据相矛盾的幻觉,尤其是在定位推理不足的情况下。这项工作揭示了当前医学LMM的一个关键局限性:它们在响应与疾病相关的查询时,通常依赖于语言模式或关注不相关的图像区域,而不是分析相关的病理区域。为了解决这个问题,我们引入了HEAL-MedVQA(通过定位MedVQA进行幻觉评估),这是一个全面的基准,旨在评估LMM的定位能力和幻觉鲁棒性。HEAL-MedVQA具有(i)两种创新的评估协议,用于评估视觉和文本的捷径学习,以及(ii)一个包含67K VQA对的数据集,其中包含医生注释的病理区域的解剖分割掩码。为了提高视觉推理能力,我们提出了Localize-before-Answer (LobA)框架,该框架训练LMM定位感兴趣的目标区域,并进行自我提示以强调分割的病理区域,从而生成有根据且可靠的答案。实验结果表明,我们的方法在具有挑战性的HEAL-MedVQA基准上显著优于最先进的生物医学LMM,从而提高了医学VQA的鲁棒性。
🔬 方法详解
问题定义:现有医学多模态LLM在回答医学图像相关问题时,容易产生幻觉,即答案与图像中的实际病灶不符。这是因为模型倾向于依赖语言模式或关注图像中不相关的区域,而忽略了对关键病理区域的定位和分析。现有方法缺乏对模型定位能力的有效评估和提升机制。
核心思路:论文的核心思路是“先定位,后回答”(Localize-before-Answer)。通过显式地训练模型定位图像中的病灶区域,并利用这些定位信息来指导答案生成,从而提高模型对相关视觉信息的关注,减少幻觉的产生。这种方法模拟了医生诊断的过程,即首先观察病灶,然后根据病灶特征进行判断。
技术框架:LobA框架包含以下主要阶段:1) 病灶定位:利用分割模型预测图像中病灶区域的分割掩码。数据集提供了医生标注的分割掩码,用于训练和评估分割模型。2) 自我提示:将分割掩码作为提示信息,引导LLM关注病灶区域。具体来说,可以将分割掩码与原始图像进行融合,或者将分割掩码作为额外的输入特征传递给LLM。3) 答案生成:LLM根据原始图像和病灶定位信息生成答案。
关键创新:该论文的关键创新在于提出了HEAL-MedVQA基准,用于评估医学多模态LLM的定位能力和抗幻觉性。同时,提出了LobA框架,通过显式地定位病灶区域来提高模型的视觉推理能力。与现有方法相比,LobA框架更加注重对相关视觉信息的利用,从而减少了幻觉的产生。
关键设计:HEAL-MedVQA基准包含67K VQA对,并提供了医生标注的病灶分割掩码。LobA框架可以使用不同的分割模型和LLM。论文中使用了特定的分割模型和LLM,并对训练过程进行了优化。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LobA框架在HEAL-MedVQA基准测试中显著优于现有生物医学LMM。具体而言,LobA框架在多个指标上取得了明显的提升,例如答案准确率、定位精度和幻觉减少率。这些结果表明,LobA框架能够有效地提高医学多模态LLM的视觉推理能力和抗幻觉性。
🎯 应用场景
该研究成果可应用于辅助医学诊断、医学教育和远程医疗等领域。通过提高医学多模态LLM的准确性和可靠性,可以帮助医生更有效地进行疾病诊断和治疗方案制定。此外,该技术还可以用于医学图像分析、报告生成和患者咨询等场景,具有广阔的应用前景。
📄 摘要(原文)
Medical Large Multi-modal Models (LMMs) have demonstrated remarkable capabilities in medical data interpretation. However, these models frequently generate hallucinations contradicting source evidence, particularly due to inadequate localization reasoning. This work reveals a critical limitation in current medical LMMs: instead of analyzing relevant pathological regions, they often rely on linguistic patterns or attend to irrelevant image areas when responding to disease-related queries. To address this, we introduce HEAL-MedVQA (Hallucination Evaluation via Localization MedVQA), a comprehensive benchmark designed to evaluate LMMs' localization abilities and hallucination robustness. HEAL-MedVQA features (i) two innovative evaluation protocols to assess visual and textual shortcut learning, and (ii) a dataset of 67K VQA pairs, with doctor-annotated anatomical segmentation masks for pathological regions. To improve visual reasoning, we propose the Localize-before-Answer (LobA) framework, which trains LMMs to localize target regions of interest and self-prompt to emphasize segmented pathological areas, generating grounded and reliable answers. Experimental results demonstrate that our approach significantly outperforms state-of-the-art biomedical LMMs on the challenging HEAL-MedVQA benchmark, advancing robustness in medical VQA.