RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

作者: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao

分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.CY

发布日期: 2024-07-06 (更新: 2024-10-17)

备注: EMNLP 2024 main

🔗 代码/项目: GITHUB

💡 一句话要点

提出RULE，通过可靠多模态RAG提升医学视觉语言模型的事实准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学视觉语言模型 检索增强生成 事实性 多模态学习 偏好学习 医学影像 知识问答

📋 核心要点

Med-LVLMs在医疗诊断中面临事实性挑战，生成内容可能与医学事实不符。
RULE通过校准检索上下文数量控制事实性风险，并微调模型平衡固有知识和检索信息。
实验表明，RULE在医学VQA和报告生成任务中，事实准确性平均提升47.4%。

📝 摘要（中文）

医学大型视觉语言模型(Med-LVLMs)的出现增强了医疗诊断能力。然而，当前的Med-LVLMs经常遇到事实性问题，生成的回答与已建立的医学事实不符。检索增强生成(RAG)利用外部知识可以提高这些模型的事实准确性，但也带来了两个主要挑战。首先，有限的检索上下文可能无法覆盖所有必要的信息，而过多的检索会引入不相关和不准确的参考，干扰模型的生成。其次，在模型最初回答正确的情况下，应用RAG可能导致过度依赖检索到的上下文，从而导致不正确的答案。为了解决这些问题，我们提出了RULE，它由两个部分组成。首先，我们引入了一种经过验证的有效策略，通过校准检索上下文的数量来控制事实性风险。其次，基于过度依赖检索上下文导致错误的样本，我们构建了一个偏好数据集来微调模型，平衡其对固有知识和检索上下文的依赖性。我们在三个数据集上的医学VQA和报告生成任务上证明了RULE的有效性，实现了事实准确性平均提高47.4%。我们公开发布了我们的基准和代码。

🔬 方法详解

问题定义：医学视觉语言模型(Med-LVLMs)在医疗诊断中展现出潜力，但其生成的事实准确性不足，经常产生与医学知识相悖的答案。现有的检索增强生成(RAG)方法虽然可以引入外部知识，但面临两个主要问题：一是检索上下文不足或冗余导致信息缺失或干扰；二是模型可能过度依赖检索信息，即使自身知识足以给出正确答案，也会被检索结果误导。

核心思路：RULE的核心在于通过两个方面提升Med-LVLMs的事实准确性：首先，精确控制RAG过程中检索上下文的数量，避免信息不足或噪声干扰；其次，通过偏好学习微调模型，使其在自身知识和检索信息之间取得平衡，避免过度依赖检索结果。

技术框架：RULE包含两个主要组成部分：1) 校准检索上下文选择策略：该策略旨在根据输入问题，动态选择最优的检索上下文数量，以最小化事实性风险。具体实现方式未知，但强调了“provably effective strategy”；2) 偏好学习微调：构建一个偏好数据集，其中包含模型过度依赖检索上下文导致错误的样本。利用这些样本，通过偏好学习的方式微调模型，使其在生成答案时更加注重自身知识，避免被不准确的检索信息误导。

关键创新：RULE的关键创新在于其双管齐下的方法：一方面，通过校准检索上下文的数量，优化RAG过程的信息质量；另一方面，通过偏好学习微调模型，提升其对自身知识的利用能力，从而避免过度依赖检索信息。这种结合RAG优化和模型微调的策略，能够更有效地提升Med-LVLMs的事实准确性。

关键设计：论文中没有详细说明校准检索上下文选择策略的具体实现方式，以及偏好学习微调的具体技术细节（例如，损失函数、网络结构等）。这些细节可能在后续的论文或代码中公开。偏好数据集的构建方式是基于模型过度依赖检索上下文导致错误的样本，这表明数据集构建过程需要仔细分析模型的行为，并选择具有代表性的错误样本。

🖼️ 关键图片

📊 实验亮点

RULE在三个医学数据集上的VQA和报告生成任务中取得了显著的性能提升，事实准确性平均提高了47.4%。这一结果表明RULE能够有效解决Med-LVLMs中存在的事实性问题，显著提升了模型的可靠性。

🎯 应用场景

RULE的研究成果可应用于提升医学影像诊断的准确性和可靠性，辅助医生进行更精准的诊断和治疗方案制定。该方法还可推广到其他需要事实性保证的医疗文本生成任务，例如病历报告生成、医学知识问答等，具有广阔的应用前景。

📄 摘要（原文）

The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has enhanced medical diagnosis. However, current Med-LVLMs frequently encounter factual issues, often generating responses that do not align with established medical facts. Retrieval-Augmented Generation (RAG), which utilizes external knowledge, can improve the factual accuracy of these models but introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model's generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers. To address these issues, we propose RULE, which consists of two components. First, we introduce a provably effective strategy for controlling factuality risk through the calibrated selection of the number of retrieved contexts. Second, based on samples where over-reliance on retrieved contexts led to errors, we curate a preference dataset to fine-tune the model, balancing its dependence on inherent knowledge and retrieved contexts for generation. We demonstrate the effectiveness of RULE on medical VQA and report generation tasks across three datasets, achieving an average improvement of 47.4% in factual accuracy. We publicly release our benchmark and code in https://github.com/richard-peng-xia/RULE.

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理