Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering

作者: Xupeng Chen, Binbin Shi, Chenqian Le, Jiaqi Zhang, Kewen Wang, Ran Gong, Jinhan Zhang, Chihang Wang

分类: cs.AI

发布日期: 2026-04-30

💡 一句话要点

提出MED-VRAG，一种迭代多模态检索增强生成框架，用于医学问答。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学问答 多模态检索 检索增强生成 视觉语言模型 迭代推理

📋 核心要点

现有医学RAG系统忽略了文档页面中丰富的视觉信息，限制了其性能。
MED-VRAG通过检索和推理文档页面图像，并结合迭代查询细化和记忆库，有效利用了多模态信息。
实验表明，MED-VRAG在多个医学QA基准上取得了显著的性能提升，优于现有方法。

📝 摘要（中文）

医学检索增强生成(RAG)系统通常基于生物医学文献的文本块进行操作，忽略了原始文档页面中丰富的视觉内容(表格、图表、结构化布局)。我们提出了MED-VRAG，一个迭代多模态RAG框架，它检索并推理PMC文档页面图像，而不是OCR文本。该系统将ColQwen2.5的patch-level页面嵌入与分片的MapReduce LLM过滤器配对，扩展到约35万页，同时通过离线粗到细索引(每个页面C=8个质心，对质心进行ANN，对top-R候选列表进行精确的双向评分)将Stage-1检索保持在30毫秒以下。然后，视觉语言模型(VLM)迭代地细化其查询，并在最多3轮推理中在记忆库中积累证据，在4xA100上，单次迭代花费约15.9秒，完整的3轮pipeline花费约47.8秒。在四个医学QA基准测试(MedQA、MedMCQA、PubMedQA、MMLU-Med)中，MEDVRAG达到了78.6%的平均准确率。在与相同的Qwen2.5-VL-32B backbone的受控比较下，检索贡献了比无检索基线高+5.8个百分点的增益；我们还注意到比MedRAG + GPT-4 (76.8%)高+1.8个百分点的优势，但需要注意的是，这是一个跨论文的比较，而不是直接的比较。消融实验表明，页面图像检索相比文本块检索贡献了+1.0，迭代贡献了+1.5，记忆库贡献了+1.0。

🔬 方法详解

问题定义：现有医学问答系统主要依赖于从生物医学文献中提取的文本块，忽略了文档页面中包含的丰富视觉信息，如表格、图表和结构化布局。这些视觉信息对于理解医学问题至关重要，因此现有方法在处理需要视觉推理的医学问题时存在局限性。

核心思路：MED-VRAG的核心思路是利用文档页面图像作为检索和推理的基础，而不是传统的OCR文本。通过将视觉信息融入到RAG流程中，系统可以更好地理解医学问题的上下文，并从文档中提取更相关的证据。此外，MED-VRAG还采用了迭代查询细化和记忆库机制，以逐步提高答案的准确性。

技术框架：MED-VRAG的整体框架包含以下几个主要模块：1) 离线索引构建：使用ColQwen2.5生成文档页面图像的patch-level嵌入，并构建粗到细的索引结构，以实现高效的检索。2) 检索阶段：根据用户提出的医学问题，从索引中检索最相关的文档页面图像。3) 迭代推理阶段：视觉语言模型(VLM)根据检索到的图像和用户问题，迭代地细化查询，并在记忆库中积累证据。每一轮迭代都会更新查询，并检索新的相关图像。4) 答案生成阶段：经过多轮迭代后，VLM根据记忆库中的证据生成最终答案。

关键创新：MED-VRAG的关键创新在于：1) 多模态检索：首次将文档页面图像作为RAG系统的检索对象，充分利用了视觉信息。2) 迭代查询细化：通过迭代地细化查询，VLM可以逐步提高答案的准确性。3) 记忆库：记忆库用于存储和积累推理过程中的证据，有助于VLM更好地理解问题的上下文。

关键设计：MED-VRAG的关键设计包括：1) ColQwen2.5：用于生成文档页面图像的patch-level嵌入。2) 粗到细索引：采用C=8个质心的ANN索引，并对top-R候选列表进行精确的双向评分，以实现高效的检索。3) 迭代轮数：实验中使用了3轮迭代，以平衡性能和计算成本。4) VLM backbone：使用Qwen2.5-VL-32B作为VLM的backbone。

🖼️ 关键图片

📊 实验亮点

MED-VRAG在四个医学QA基准测试(MedQA、MedMCQA、PubMedQA、MMLU-Med)中达到了78.6%的平均准确率。与相同的Qwen2.5-VL-32B backbone的无检索基线相比，检索贡献了+5.8个百分点的增益。与MedRAG + GPT-4 (76.8%)相比，有+1.8个百分点的优势（跨论文比较）。消融实验表明，页面图像检索相比文本块检索贡献了+1.0，迭代贡献了+1.5，记忆库贡献了+1.0。

🎯 应用场景

MED-VRAG可应用于医学问答系统、临床决策支持系统、医学教育等领域。通过利用文档页面中的视觉信息，该系统可以提供更准确、更全面的答案，帮助医生和研究人员更好地理解医学知识，提高医疗质量。

📄 摘要（原文）

Medical retrieval-augmented generation (RAG) systems typically operate on text chunks extracted from biomedical literature, discarding the rich visual content (tables, figures, structured layouts) of original document pages. We propose MED-VRAG, an iterative multimodal RAG framework that retrieves and reasons over PMC document page images instead of OCR'd text. The system pairs ColQwen2.5 patch-level page embeddings with a sharded MapReduce LLM filter, scaling to ~350K pages while keeping Stage-1 retrieval under 30 ms via an offline coarse-to-fine index (C=8 centroids per page, ANN over centroids, exact two-way scoring on the top-R shortlist). A vision-language model (VLM) then iteratively refines its query and accumulates evidence in a memory bank across up to 3 reasoning rounds, with a single iteration costing ~15.9 s and the full three-round pipeline ~47.8 s on 4xA100. Across four medical QA benchmarks (MedQA, MedMCQA, PubMedQA, MMLU-Med), MEDVRAG reaches 78.6% average accuracy. Under controlled comparison with the same Qwen2.5-VL-32B backbone, retrieval contributes a +5.8 point gain over the no-retrieval baseline; we also note a +1.8 point edge over MedRAG + GPT-4 (76.8%), with the caveat that this is a cross-paper rather than head-to-head comparison. Ablations isolate +1.0 from page-image vs text-chunk retrieval, +1.5 from iteration, and +1.0 from the memory bank.

Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理