Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering
作者: Xupeng Chen, Binbin Shi, Chenqian Le, Jiaqi Zhang, Kewen Wang, Ran Gong, Jinhan Zhang, Chihang Wang
分类: cs.AI
发布日期: 2026-04-30
💡 一句话要点
提出MED-VRAG,一种迭代多模态检索增强生成框架,用于医学问答。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学问答 多模态检索 检索增强生成 视觉语言模型 迭代推理
📋 核心要点
- 现有医学RAG系统忽略了文档页面中丰富的视觉信息,限制了其性能。
- MED-VRAG通过检索和推理文档页面图像,并结合迭代查询细化和记忆库,有效利用了多模态信息。
- 实验表明,MED-VRAG在多个医学QA基准上取得了显著的性能提升,优于现有方法。
📝 摘要(中文)
医学检索增强生成(RAG)系统通常基于生物医学文献的文本块进行操作,忽略了原始文档页面中丰富的视觉内容(表格、图表、结构化布局)。我们提出了MED-VRAG,一个迭代多模态RAG框架,它检索并推理PMC文档页面图像,而不是OCR文本。该系统将ColQwen2.5的patch-level页面嵌入与分片的MapReduce LLM过滤器配对,扩展到约35万页,同时通过离线粗到细索引(每个页面C=8个质心,对质心进行ANN,对top-R候选列表进行精确的双向评分)将Stage-1检索保持在30毫秒以下。然后,视觉语言模型(VLM)迭代地细化其查询,并在最多3轮推理中在记忆库中积累证据,在4xA100上,单次迭代花费约15.9秒,完整的3轮pipeline花费约47.8秒。在四个医学QA基准测试(MedQA、MedMCQA、PubMedQA、MMLU-Med)中,MEDVRAG达到了78.6%的平均准确率。在与相同的Qwen2.5-VL-32B backbone的受控比较下,检索贡献了比无检索基线高+5.8个百分点的增益;我们还注意到比MedRAG + GPT-4 (76.8%)高+1.8个百分点的优势,但需要注意的是,这是一个跨论文的比较,而不是直接的比较。消融实验表明,页面图像检索相比文本块检索贡献了+1.0,迭代贡献了+1.5,记忆库贡献了+1.0。
🔬 方法详解
问题定义:现有医学问答系统主要依赖于从生物医学文献中提取的文本块,忽略了文档页面中包含的丰富视觉信息,如表格、图表和结构化布局。这些视觉信息对于理解医学问题至关重要,因此现有方法在处理需要视觉推理的医学问题时存在局限性。
核心思路:MED-VRAG的核心思路是利用文档页面图像作为检索和推理的基础,而不是传统的OCR文本。通过将视觉信息融入到RAG流程中,系统可以更好地理解医学问题的上下文,并从文档中提取更相关的证据。此外,MED-VRAG还采用了迭代查询细化和记忆库机制,以逐步提高答案的准确性。
技术框架:MED-VRAG的整体框架包含以下几个主要模块:1) 离线索引构建:使用ColQwen2.5生成文档页面图像的patch-level嵌入,并构建粗到细的索引结构,以实现高效的检索。2) 检索阶段:根据用户提出的医学问题,从索引中检索最相关的文档页面图像。3) 迭代推理阶段:视觉语言模型(VLM)根据检索到的图像和用户问题,迭代地细化查询,并在记忆库中积累证据。每一轮迭代都会更新查询,并检索新的相关图像。4) 答案生成阶段:经过多轮迭代后,VLM根据记忆库中的证据生成最终答案。
关键创新:MED-VRAG的关键创新在于:1) 多模态检索:首次将文档页面图像作为RAG系统的检索对象,充分利用了视觉信息。2) 迭代查询细化:通过迭代地细化查询,VLM可以逐步提高答案的准确性。3) 记忆库:记忆库用于存储和积累推理过程中的证据,有助于VLM更好地理解问题的上下文。
关键设计:MED-VRAG的关键设计包括:1) ColQwen2.5:用于生成文档页面图像的patch-level嵌入。2) 粗到细索引:采用C=8个质心的ANN索引,并对top-R候选列表进行精确的双向评分,以实现高效的检索。3) 迭代轮数:实验中使用了3轮迭代,以平衡性能和计算成本。4) VLM backbone:使用Qwen2.5-VL-32B作为VLM的backbone。
🖼️ 关键图片
📊 实验亮点
MED-VRAG在四个医学QA基准测试(MedQA、MedMCQA、PubMedQA、MMLU-Med)中达到了78.6%的平均准确率。与相同的Qwen2.5-VL-32B backbone的无检索基线相比,检索贡献了+5.8个百分点的增益。与MedRAG + GPT-4 (76.8%)相比,有+1.8个百分点的优势(跨论文比较)。消融实验表明,页面图像检索相比文本块检索贡献了+1.0,迭代贡献了+1.5,记忆库贡献了+1.0。
🎯 应用场景
MED-VRAG可应用于医学问答系统、临床决策支持系统、医学教育等领域。通过利用文档页面中的视觉信息,该系统可以提供更准确、更全面的答案,帮助医生和研究人员更好地理解医学知识,提高医疗质量。
📄 摘要(原文)
Medical retrieval-augmented generation (RAG) systems typically operate on text chunks extracted from biomedical literature, discarding the rich visual content (tables, figures, structured layouts) of original document pages. We propose MED-VRAG, an iterative multimodal RAG framework that retrieves and reasons over PMC document page images instead of OCR'd text. The system pairs ColQwen2.5 patch-level page embeddings with a sharded MapReduce LLM filter, scaling to ~350K pages while keeping Stage-1 retrieval under 30 ms via an offline coarse-to-fine index (C=8 centroids per page, ANN over centroids, exact two-way scoring on the top-R shortlist). A vision-language model (VLM) then iteratively refines its query and accumulates evidence in a memory bank across up to 3 reasoning rounds, with a single iteration costing ~15.9 s and the full three-round pipeline ~47.8 s on 4xA100. Across four medical QA benchmarks (MedQA, MedMCQA, PubMedQA, MMLU-Med), MEDVRAG reaches 78.6% average accuracy. Under controlled comparison with the same Qwen2.5-VL-32B backbone, retrieval contributes a +5.8 point gain over the no-retrieval baseline; we also note a +1.8 point edge over MedRAG + GPT-4 (76.8%), with the caveat that this is a cross-paper rather than head-to-head comparison. Ablations isolate +1.0 from page-image vs text-chunk retrieval, +1.5 from iteration, and +1.0 from the memory bank.