Reducing Hallucinations of Medical Multimodal Large Language Models with Visual Retrieval-Augmented Generation

📄 arXiv: 2502.15040v1 📥 PDF

作者: Yun-Wei Chu, Kai Zhang, Christopher Malon, Martin Renqiang Min

分类: cs.CL, cs.AI

发布日期: 2025-02-20

备注: GenAI4Health - AAAI '25


💡 一句话要点

提出视觉检索增强生成(V-RAG)框架,减少医疗多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 医疗影像 大语言模型 幻觉抑制 检索增强生成

📋 核心要点

  1. 医疗领域的多模态大语言模型易产生幻觉,影响诊断准确性,现有方法难以有效缓解。
  2. 论文提出视觉检索增强生成(V-RAG)框架,利用检索到的图像及其文本信息来增强模型。
  3. 实验表明,V-RAG能有效提高实体探测的准确性,并生成更准确的X射线报告,提升RadGraph-F1分数。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视觉和文本任务中表现出令人印象深刻的性能。然而,幻觉仍然是一个主要的挑战,尤其是在医疗保健等细节至关重要的领域。本文展示了如何增强MLLMs以支持视觉RAG(V-RAG),这是一种检索增强生成框架,它结合了来自检索图像的文本和视觉数据。在MIMIC-CXR胸部X射线报告生成和Multicare医疗图像标题生成数据集上,我们表明视觉RAG提高了实体探测的准确性,即判断医学实体是否由图像支持。我们表明,改进扩展到频繁和罕见实体,后者可能具有较少的积极训练数据。下游任务中,我们将V-RAG与实体探测相结合,以纠正幻觉并生成更临床准确的X射线报告,从而获得更高的RadGraph-F1分数。

🔬 方法详解

问题定义:医疗多模态大语言模型在生成报告时容易产生幻觉,即生成与图像不符或临床上不准确的信息。现有方法难以充分利用图像信息,导致模型对图像的理解不足,从而产生幻觉。这在医疗领域是不可接受的,因为可能导致误诊或治疗不当。

核心思路:论文的核心思路是利用视觉检索增强生成(V-RAG)框架,通过检索与输入图像相关的图像和文本信息,为大语言模型提供更丰富的上下文。这样,模型在生成报告时可以参考检索到的信息,从而减少幻觉,提高准确性。V-RAG的核心在于利用外部知识来约束模型的生成过程。

技术框架:V-RAG框架主要包含以下几个模块:1) 图像编码器:将输入图像编码成视觉特征向量。2) 检索模块:根据图像特征向量,从外部数据库中检索相关的图像和文本信息。3) 多模态融合模块:将输入图像、检索到的图像和文本信息融合在一起,形成多模态表示。4) 语言模型:根据多模态表示生成报告。框架首先对输入图像进行编码,然后利用编码后的特征在数据库中检索相似的图像和相关的文本描述。检索到的信息与原始图像一起输入到多模态大语言模型中,用于生成最终的报告。

关键创新:该论文的关键创新在于将视觉检索与增强生成相结合,提出了一种新的解决医疗多模态大语言模型幻觉问题的方法。与传统的仅依赖模型自身知识的方法相比,V-RAG能够利用外部知识来约束模型的生成过程,从而减少幻觉。此外,论文还提出了实体探测方法,用于评估模型对图像中实体的理解程度。

关键设计:在检索模块中,可以使用不同的相似度度量方法来检索相关的图像和文本信息。在多模态融合模块中,可以使用不同的融合策略,例如注意力机制或交叉注意力机制。在语言模型中,可以使用不同的预训练语言模型,例如BERT或GPT。论文中可能使用了特定的图像编码器、检索算法、融合策略和语言模型,但具体细节未知。损失函数的设计可能包括生成损失和实体探测损失,以同时优化报告生成和实体理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,V-RAG框架在MIMIC-CXR和Multicare数据集上均取得了显著的性能提升。实体探测的准确性得到了提高,尤其是在罕见实体上。通过将V-RAG与实体探测相结合,生成的X射线报告的RadGraph-F1分数得到了提高,表明生成的报告更准确、更可靠。具体的性能提升幅度未知。

🎯 应用场景

该研究成果可应用于医疗报告自动生成、辅助诊断、医学图像标注等领域。通过减少医疗多模态大语言模型的幻觉,提高报告的准确性和可靠性,有助于医生做出更准确的诊断和治疗决策。未来,该技术有望推广到其他医疗领域,例如病理图像分析、基因组学等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown impressive performance in vision and text tasks. However, hallucination remains a major challenge, especially in fields like healthcare where details are critical. In this work, we show how MLLMs may be enhanced to support Visual RAG (V-RAG), a retrieval-augmented generation framework that incorporates both text and visual data from retrieved images. On the MIMIC-CXR chest X-ray report generation and Multicare medical image caption generation datasets, we show that Visual RAG improves the accuracy of entity probing, which asks whether a medical entities is grounded by an image. We show that the improvements extend both to frequent and rare entities, the latter of which may have less positive training data. Downstream, we apply V-RAG with entity probing to correct hallucinations and generate more clinically accurate X-ray reports, obtaining a higher RadGraph-F1 score.