EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation

📄 arXiv: 2510.16776v1 📥 PDF

作者: Mingzheng Zhang, Jinfeng Gao, Dan Xu, Jiangrui Yu, Yuhan Qiao, Lan Chen, Jin Tang, Xiao Wang

分类: cs.CV, cs.AI

发布日期: 2025-10-19

🔗 代码/项目: GITHUB


💡 一句话要点

提出EMRRG,高效微调预训练Mamba网络用于放射报告生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学报告生成 X射线图像 Mamba网络 参数高效微调 Partial LoRA

📋 核心要点

  1. 现有医学报告生成模型过度依赖大型语言模型,忽略了预训练视觉模型和高效微调的潜力。
  2. EMRRG框架通过参数高效的微调方法,利用预训练的Mamba网络进行X射线报告生成。
  3. 实验表明,EMRRG在多个基准数据集上表现出色,验证了其在X射线医学报告生成中的有效性。

📝 摘要(中文)

基于X射线图像的医学报告生成(MRG)是人工智能领域的一个关键方向,可以显著减轻临床医生的诊断负担并缩短患者的等待时间。现有的MRG模型主要依赖于大型语言模型(LLM)来改进报告生成,而对预训练视觉基础模型或高级微调技术的探索有限。主流框架要么避免微调,要么使用像LoRA这样简单的方法,常常忽略了增强交叉注意力机制的潜力。此外,虽然基于Transformer的模型在视觉-语言任务中占据主导地位,但像Mamba网络这样的非Transformer架构在医学报告生成方面的研究仍然不足,这为未来的研究提供了一个有希望的方向。在本文中,我们提出了EMRRG,一种新颖的X射线报告生成框架,该框架使用参数高效的方法微调预训练的Mamba网络。具体来说,X射线图像被分成patches,进行token化,并通过基于SSM的视觉骨干网络进行特征提取,其中Partial LoRA产生最佳性能。具有混合解码器的LLM生成医学报告,实现端到端训练,并在基准数据集上取得良好的效果。在三个广泛使用的基准数据集上进行的大量实验充分验证了我们提出的X射线MRG策略的有效性。

🔬 方法详解

问题定义:论文旨在解决X射线图像医学报告自动生成的问题。现有方法主要依赖Transformer架构或简单微调策略,未能充分利用预训练视觉模型的能力,且计算成本较高。同时,对新兴的非Transformer架构(如Mamba)在医学报告生成领域的探索不足。

核心思路:论文的核心思路是利用预训练的Mamba网络作为视觉骨干,并采用参数高效的微调方法(Partial LoRA)来提取X射线图像的特征。结合大型语言模型生成报告,实现端到端的训练,从而在保证性能的同时降低计算成本。

技术框架:EMRRG框架主要包含以下几个模块:1) X射线图像预处理:将图像分割成patches并进行token化。2) 基于SSM的视觉骨干网络:使用预训练的Mamba网络提取图像特征。3) Partial LoRA:采用Partial LoRA进行参数高效的微调。4) 混合解码器的LLM:利用LLM生成医学报告。整个框架采用端到端的方式进行训练。

关键创新:论文的关键创新在于:1) 将Mamba网络引入医学报告生成领域,探索了非Transformer架构的潜力。2) 提出了Partial LoRA微调策略,在保证性能的同时显著降低了计算成本。3) 提出了一个完整的端到端X射线报告生成框架,并取得了良好的实验结果。

关键设计:在视觉骨干网络中,使用了预训练的Mamba模型,并根据X射线图像的特点进行了调整。Partial LoRA的具体实现方式未知,但其目标是只微调部分参数,以降低计算成本。LLM的混合解码器结构也未详细说明,但推测是结合了不同的解码策略以提升报告生成的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在三个广泛使用的基准数据集上进行了实验,验证了EMRRG框架的有效性。虽然具体的性能数据和提升幅度未知,但摘要中提到EMRRG取得了“strong results”,表明其性能优于现有方法。Partial LoRA的使用在保证性能的同时,显著降低了计算成本,使得该方法更易于部署和应用。

🎯 应用场景

该研究成果可应用于辅助放射科医生进行X射线图像的诊断和报告生成,减轻医生的工作负担,缩短患者的等待时间。此外,该方法也可推广到其他医学影像报告生成任务中,具有广阔的应用前景。未来,可以进一步探索如何将该方法应用于远程医疗和移动医疗等场景。

📄 摘要(原文)

X-ray image-based medical report generation (MRG) is a pivotal area in artificial intelligence that can significantly reduce diagnostic burdens for clinicians and patient wait times. Existing MRG models predominantly rely on Large Language Models (LLMs) to improve report generation, with limited exploration of pre-trained vision foundation models or advanced fine-tuning techniques. Mainstream frameworks either avoid fine-tuning or utilize simplistic methods like LoRA, often neglecting the potential of enhancing cross-attention mechanisms. Additionally, while Transformer-based models dominate vision-language tasks, non-Transformer architectures, such as the Mamba network, remain underexplored for medical report generation, presenting a promising avenue for future research. In this paper, we propose EMRRG, a novel X-ray report generation framework that fine-tunes pre-trained Mamba networks using parameter-efficient methods. Specifically, X-ray images are divided into patches, tokenized, and processed by an SSM-based vision backbone for feature extraction, with Partial LoRA yielding optimal performance. An LLM with a hybrid decoder generates the medical report, enabling end-to-end training and achieving strong results on benchmark datasets. Extensive experiments on three widely used benchmark datasets fully validated the effectiveness of our proposed strategies for the X-ray MRG. The source code of this paper will be released on https://github.com/Event-AHU/Medical_Image_Analysis.