Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models

📄 arXiv: 2505.07001v2 📥 PDF

作者: Bidur Khanal, Sandesh Pokhrel, Sanjay Bhandari, Ramesh Rana, Nikesh Shrestha, Ram Bahadur Gurung, Cristian Linte, Angus Watson, Yash Raj Shrestha, Binod Bhattarai

分类: cs.CV, cs.LG

发布日期: 2025-05-11 (更新: 2025-06-22)

备注: Accepted at MICCAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出Gut-VLM数据集,并采用幻觉感知微调方法提升VLM在胃肠道图像分析中的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 医学图像分析 胃肠道图像 幻觉检测 幻觉纠正 微调 多模态学习 Gut-VLM数据集

📋 核心要点

  1. 现有视觉-语言模型在医学图像分析中存在幻觉问题,生成与图像内容不符的描述,严重影响诊断的可靠性。
  2. 论文提出一种幻觉感知微调方法,通过训练模型检测和纠正幻觉,而非仅生成报告,以提高模型准确性。
  3. 实验结果表明,该幻觉感知微调方法优于传统的描述性报告生成微调,并在Gut-VLM数据集上建立了新的基准。

📝 摘要(中文)

视觉-语言模型(VLM)在医学领域日益普及,弥合了医学图像和临床语言之间的差距。现有的VLM在理解医学图像和文本查询以生成详细的描述性诊断医学报告方面表现出令人印象深刻的能力。然而,幻觉——即生成与视觉内容不一致的描述——仍然是VLM中的一个重要问题,在医学领域具有特别严重的意义。为了促进VLM在胃肠道(GI)图像分析方面的研究并研究幻觉,我们整理了一个多模态图像-文本GI数据集:Gut-VLM。该数据集是使用一个两阶段流程创建的:首先,使用ChatGPT生成Kvasir-v2图像的描述性医学报告,这引入了一些幻觉或不正确的文本。在第二阶段,医学专家系统地审查这些报告,并识别和纠正潜在的不准确之处,以确保高质量、临床上可靠的注释。与仅包含描述性文本的传统数据集不同,我们的数据集还具有识别幻觉语句及其相应更正的标签。减少VLM中幻觉的常用方法是在小规模、特定问题的数据集上微调模型。然而,我们使用我们的数据集采取了不同的策略。我们不是仅仅为了生成文本报告而微调VLM,而是微调它来检测和纠正幻觉,我们称之为幻觉感知微调。我们的结果表明,这种方法比仅仅微调以生成描述性报告更好。此外,我们对最先进的VLM进行了广泛的评估,跨越多个指标,建立了一个基准。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)在胃肠道图像分析中存在的“幻觉”问题,即模型生成的报告与实际图像内容不符。现有方法通常直接微调VLM生成报告,但无法有效解决幻觉问题,导致诊断结果不可靠。

核心思路:论文的核心思路是采用“幻觉感知微调”策略。不同于以往直接微调VLM生成报告,该方法着重训练模型识别并纠正报告中的幻觉。通过让模型学习区分真实描述和错误描述,从而提高生成报告的准确性和可靠性。

技术框架:整体流程包括两个主要阶段:1) 构建Gut-VLM数据集:首先利用ChatGPT生成医学报告,然后由医学专家进行审核和修正,标注出幻觉语句及其正确版本。2) 幻觉感知微调:使用Gut-VLM数据集微调VLM,使其能够检测并纠正幻觉。模型输入为图像和报告,输出为修正后的报告。

关键创新:该论文的关键创新在于提出了“幻觉感知微调”这一概念,并将其应用于VLM的训练中。与传统的微调方法相比,该方法更加关注模型对错误信息的识别和纠正能力,从而更有效地减少幻觉的产生。

关键设计:Gut-VLM数据集的关键设计在于其标注方式,不仅包含描述性文本,还标注了幻觉语句及其对应的正确版本,为幻觉感知微调提供了必要的数据支持。微调过程中,可以使用交叉熵损失函数来训练模型识别幻觉,并使用序列到序列模型生成修正后的报告。具体的网络结构和参数设置取决于所使用的VLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用幻觉感知微调的VLM在Gut-VLM数据集上表现优于传统的微调方法,能够更准确地生成医学报告,并有效减少幻觉的产生。该研究为VLM在医学图像分析中的应用提供了新的思路和方法,并在Gut-VLM数据集上建立了新的性能基准。

🎯 应用场景

该研究成果可应用于智能辅助诊断系统,帮助医生更准确地分析胃肠道图像,减少误诊和漏诊。通过提高VLM的可靠性,可以降低医疗风险,提升医疗效率,并为远程医疗和人工智能医疗提供更可靠的技术支持。未来,该方法可推广到其他医学图像分析领域。

📄 摘要(原文)

Vision-Language Models (VLMs) are becoming increasingly popular in the medical domain, bridging the gap between medical images and clinical language. Existing VLMs demonstrate an impressive ability to comprehend medical images and text queries to generate detailed, descriptive diagnostic medical reports. However, hallucination--the tendency to generate descriptions that are inconsistent with the visual content--remains a significant issue in VLMs, with particularly severe implications in the medical field. To facilitate VLM research on gastrointestinal (GI) image analysis and study hallucination, we curate a multimodal image-text GI dataset: Gut-VLM. This dataset is created using a two-stage pipeline: first, descriptive medical reports of Kvasir-v2 images are generated using ChatGPT, which introduces some hallucinated or incorrect texts. In the second stage, medical experts systematically review these reports, and identify and correct potential inaccuracies to ensure high-quality, clinically reliable annotations. Unlike traditional datasets that contain only descriptive texts, our dataset also features tags identifying hallucinated sentences and their corresponding corrections. A common approach to reducing hallucination in VLM is to finetune the model on a small-scale, problem-specific dataset. However, we take a different strategy using our dataset. Instead of finetuning the VLM solely for generating textual reports, we finetune it to detect and correct hallucinations, an approach we call hallucination-aware finetuning. Our results show that this approach is better than simply finetuning for descriptive report generation. Additionally, we conduct an extensive evaluation of state-of-the-art VLMs across several metrics, establishing a benchmark. GitHub Repo: https://github.com/bhattarailab/Hallucination-Aware-VLM.