Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs

作者: Dung Nguyen, Minh Khoi Ho, Huy Ta, Thanh Tam Nguyen, Qi Chen, Kumar Rav, Quy Duong Dang, Satwik Ramchandre, Son Lam Phung, Zhibin Liao, Minh-Son To, Johan Verjans, Phi Le Nguyen, Vu Minh Hieu Phan

分类: cs.CV

发布日期: 2025-04-30 (更新: 2025-07-15)

备注: Accepted at Joint Conference on Artificial Intelligence (IJCAI) 2025

💡 一句话要点

提出HEAL-MedVQA基准与LobA框架，提升医学多模态LLM的定位能力与抗幻觉性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学多模态模型 视觉定位 幻觉评估 VQA HEAL-MedVQA Localize-before-Answer 病灶分割

📋 核心要点

现有医学多模态LLM在视觉定位推理方面存在不足，易于产生与图像证据不符的幻觉。
提出Localize-before-Answer (LobA)框架，通过定位病灶区域并进行自我提示，增强模型对相关区域的关注。
在HEAL-MedVQA基准测试中，LobA框架显著优于现有生物医学LMM，提升了医学VQA的准确性和可靠性。

📝 摘要（中文）

医学大型多模态模型(LMMs)在医学数据解释方面表现出卓越的能力。然而，这些模型经常产生与源证据相矛盾的幻觉，尤其是在定位推理不足的情况下。这项工作揭示了当前医学LMM的一个关键局限性：它们在响应与疾病相关的查询时，通常依赖于语言模式或关注不相关的图像区域，而不是分析相关的病理区域。为了解决这个问题，我们引入了HEAL-MedVQA（通过定位MedVQA进行幻觉评估），这是一个全面的基准，旨在评估LMM的定位能力和幻觉鲁棒性。HEAL-MedVQA具有（i）两种创新的评估协议，用于评估视觉和文本的捷径学习，以及（ii）一个包含67K VQA对的数据集，其中包含医生注释的病理区域的解剖分割掩码。为了提高视觉推理能力，我们提出了Localize-before-Answer (LobA)框架，该框架训练LMM定位感兴趣的目标区域，并进行自我提示以强调分割的病理区域，从而生成有根据且可靠的答案。实验结果表明，我们的方法在具有挑战性的HEAL-MedVQA基准上显著优于最先进的生物医学LMM，从而提高了医学VQA的鲁棒性。

🔬 方法详解

问题定义：现有医学多模态LLM在回答医学图像相关问题时，容易产生幻觉，即答案与图像中的实际病灶不符。这是因为模型倾向于依赖语言模式或关注图像中不相关的区域，而忽略了对关键病理区域的定位和分析。现有方法缺乏对模型定位能力的有效评估和提升机制。

核心思路：论文的核心思路是“先定位，后回答”（Localize-before-Answer）。通过显式地训练模型定位图像中的病灶区域，并利用这些定位信息来指导答案生成，从而提高模型对相关视觉信息的关注，减少幻觉的产生。这种方法模拟了医生诊断的过程，即首先观察病灶，然后根据病灶特征进行判断。

技术框架：LobA框架包含以下主要阶段：1) 病灶定位：利用分割模型预测图像中病灶区域的分割掩码。数据集提供了医生标注的分割掩码，用于训练和评估分割模型。2) 自我提示：将分割掩码作为提示信息，引导LLM关注病灶区域。具体来说，可以将分割掩码与原始图像进行融合，或者将分割掩码作为额外的输入特征传递给LLM。3) 答案生成：LLM根据原始图像和病灶定位信息生成答案。

关键创新：该论文的关键创新在于提出了HEAL-MedVQA基准，用于评估医学多模态LLM的定位能力和抗幻觉性。同时，提出了LobA框架，通过显式地定位病灶区域来提高模型的视觉推理能力。与现有方法相比，LobA框架更加注重对相关视觉信息的利用，从而减少了幻觉的产生。

关键设计：HEAL-MedVQA基准包含67K VQA对，并提供了医生标注的病灶分割掩码。LobA框架可以使用不同的分割模型和LLM。论文中使用了特定的分割模型和LLM，并对训练过程进行了优化。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LobA框架在HEAL-MedVQA基准测试中显著优于现有生物医学LMM。具体而言，LobA框架在多个指标上取得了明显的提升，例如答案准确率、定位精度和幻觉减少率。这些结果表明，LobA框架能够有效地提高医学多模态LLM的视觉推理能力和抗幻觉性。

🎯 应用场景

该研究成果可应用于辅助医学诊断、医学教育和远程医疗等领域。通过提高医学多模态LLM的准确性和可靠性，可以帮助医生更有效地进行疾病诊断和治疗方案制定。此外，该技术还可以用于医学图像分析、报告生成和患者咨询等场景，具有广阔的应用前景。

📄 摘要（原文）

Medical Large Multi-modal Models (LMMs) have demonstrated remarkable capabilities in medical data interpretation. However, these models frequently generate hallucinations contradicting source evidence, particularly due to inadequate localization reasoning. This work reveals a critical limitation in current medical LMMs: instead of analyzing relevant pathological regions, they often rely on linguistic patterns or attend to irrelevant image areas when responding to disease-related queries. To address this, we introduce HEAL-MedVQA (Hallucination Evaluation via Localization MedVQA), a comprehensive benchmark designed to evaluate LMMs' localization abilities and hallucination robustness. HEAL-MedVQA features (i) two innovative evaluation protocols to assess visual and textual shortcut learning, and (ii) a dataset of 67K VQA pairs, with doctor-annotated anatomical segmentation masks for pathological regions. To improve visual reasoning, we propose the Localize-before-Answer (LobA) framework, which trains LMMs to localize target regions of interest and self-prompt to emphasize segmented pathological areas, generating grounded and reliable answers. Experimental results demonstrate that our approach significantly outperforms state-of-the-art biomedical LMMs on the challenging HEAL-MedVQA benchmark, advancing robustness in medical VQA.

Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理