MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

📄 arXiv: 2602.22462 📥 PDF

作者: Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar, Vladimir Filkov

分类: cs.CV, cs.IR

发布日期: 2026-02-28


💡 一句话要点

MammoWise:用于乳腺钼靶报告生成的本地多模型RAG流水线

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乳腺钼靶 报告生成 视觉语言模型 检索增强生成 本地部署 多模型 参数高效微调 医学影像

📋 核心要点

  1. 现有VLM在乳腺钼靶报告生成中受限于封闭云系统和紧耦合架构,导致隐私、可重复性和适应性问题。
  2. MammoWise提出一个本地多模型流水线,利用开源VLM和RAG技术,实现乳腺钼靶报告生成和多任务分类。
  3. 实验表明,MammoWise在报告生成方面表现出色,通过少样本提示和RAG进一步提升,且参数高效微调能提高分类可靠性。

📝 摘要(中文)

乳腺钼靶筛查工作量大、时间敏感且文档记录繁重。放射科医生必须将细微的视觉发现转化为一致的BI-RADS评估、乳腺密度分类和结构化叙述报告。虽然最近的视觉语言模型(VLM)能够实现图像到文本的报告生成,但许多模型依赖于封闭的云系统或紧密耦合的架构,限制了隐私、可重复性和适应性。我们提出了MammoWise,一个本地多模型流水线,将开源VLM转化为乳腺钼靶报告生成器和多任务分类器。MammoWise支持任何Ollama托管的VLM和乳腺钼靶数据集,并支持零样本、少样本和思维链提示,以及使用向量数据库进行案例特定上下文的多模态检索增强生成(RAG)。我们评估了MedGemma、LLaVA-Med和Qwen2.5-VL在VinDr-Mammo和DMID数据集上的性能,评估报告质量(BERTScore、ROUGE-L)、BI-RADS分类、乳腺密度和关键发现。报告生成始终表现出色,并通过少样本提示和RAG得到改善。分类是可行的,但对模型和数据集的选择敏感。MedGemma的参数高效微调(QLoRA)提高了可靠性,实现了0.7545的BI-RADS准确率、0.8840的密度准确率和0.9341的钙化准确率,同时保持了报告质量。MammoWise提供了一个实用且可扩展的框架,用于在统一且可重复的工作流程中部署本地VLM进行乳腺钼靶报告。

🔬 方法详解

问题定义:乳腺钼靶筛查需要将图像转化为结构化报告,现有VLM方案依赖云服务或特定架构,存在隐私风险、难以复现和定制。放射科医生需要一个本地化、可扩展且能生成高质量报告的解决方案。

核心思路:利用开源VLM,结合检索增强生成(RAG)技术,构建一个本地化的多模型流水线。通过RAG,模型可以检索与当前病例相关的历史案例,从而生成更准确、更具上下文信息的报告。

技术框架:MammoWise包含以下主要模块:1) VLM选择模块,支持Ollama托管的多种VLM;2) 数据集加载模块,支持多种乳腺钼靶数据集;3) 提示工程模块,支持零样本、少样本和思维链提示;4) RAG模块,使用向量数据库存储案例信息,并进行检索;5) 评估模块,使用BERTScore、ROUGE-L等指标评估报告质量,并评估BI-RADS分类、乳腺密度和关键发现的准确性。

关键创新:MammoWise的关键创新在于其本地化、多模型和可扩展的架构。它允许用户在本地部署和定制VLM,避免了对云服务的依赖,并提供了灵活的RAG机制,以提高报告质量。此外,参数高效微调(QLoRA)的使用,在提高分类性能的同时,保持了报告生成能力。

关键设计:RAG模块使用向量数据库存储乳腺钼靶图像的特征向量和对应的报告文本。在生成报告时,首先检索与当前图像最相似的案例,然后将这些案例的信息作为上下文输入到VLM中。QLoRA微调使用较低的训练资源,在预训练的VLM基础上进行微调,以提高BI-RADS分类、乳腺密度和钙化检测的准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,MammoWise在乳腺钼靶报告生成方面表现出色,通过少样本提示和RAG可以显著提高报告质量。通过QLoRA微调MedGemma,BI-RADS分类准确率达到0.7545,密度准确率达到0.8840,钙化准确率达到0.9341,同时保持了报告质量。

🎯 应用场景

MammoWise可应用于乳腺癌筛查的辅助诊断,帮助放射科医生提高报告生成效率和准确性,降低漏诊率。该框架的本地化部署特性,使其特别适用于对数据隐私有严格要求的医疗机构。未来,可扩展到其他医学影像报告生成任务。

📄 摘要(原文)

Screening mammography is high volume, time sensitive, and documentation heavy. Radiologists must translate subtle visual findings into consistent BI-RADS assessments, breast density categories, and structured narrative reports. While recent Vision Language Models (VLMs) enable image-to-text reporting, many rely on closed cloud systems or tightly coupled architectures that limit privacy, reproducibility, and adaptability. We present MammoWise, a local multi-model pipeline that transforms open source VLMs into mammogram report generators and multi-task classifiers. MammoWise supports any Ollama-hosted VLM and mammography dataset, and enables zero-shot, few-shot, and Chain-of-Thought prompting, with optional multimodal Retrieval Augmented Generation (RAG) using a vector database for case-specific context. We evaluate MedGemma, LLaVA-Med, and Qwen2.5-VL on VinDr-Mammo and DMID datasets, assessing report quality (BERTScore, ROUGE-L), BI-RADS classification, breast density, and key findings. Report generation is consistently strong and improves with few-shot prompting and RAG. Classification is feasible but sensitive to model and dataset choice. Parameter-efficient fine-tuning (QLoRA) of MedGemma improves reliability, achieving BI-RADS accuracy of 0.7545, density accuracy of 0.8840, and calcification accuracy of 0.9341 while preserving report quality. MammoWise provides a practical and extensible framework for deploying local VLMs for mammography reporting within a unified and reproducible workflow.