LDP: Parameter-Efficient Fine-Tuning of Multimodal LLM for Medical Report Generation
作者: Tianyu Zhou, Junyi Tang, Zehui Li, Dahong Qian, Suncheng Xiang
分类: cs.CV
发布日期: 2025-12-11
备注: Work in progress
💡 一句话要点
提出LDP框架,高效微调多模态LLM用于医疗报告生成,显著降低计算成本。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 医学报告生成 参数高效微调 大型语言模型 结肠镜息肉诊断
📋 核心要点
- 传统息肉诊断报告存在不一致性和幻觉问题,缺乏高质量多模态医疗数据是主要挑战。
- LDP框架利用多模态LLM,通过LoRA高效微调和DPO对齐,生成符合临床标准的诊断报告。
- 实验表明,LDP在性能上优于现有方法,且训练成本大幅降低,并在IU-XRay数据集上验证了鲁棒性。
📝 摘要(中文)
本研究针对结直肠息肉诊断中自动报告的不一致性和幻觉问题,提出了一种名为LDP的新框架,该框架利用多模态大型语言模型(MLLM)生成专业的息肉诊断报告。研究者构建了一个多模态内窥镜数据集MMEndo,其中包含专家标注的结肠镜图像-文本对。通过参数高效微调(LoRA)对Qwen2-VL-7B主干模型进行微调,并使用直接偏好优化(DPO)使其与临床标准对齐。实验结果表明,LDP在自动指标和临床专家评估(医师评分7.2/10)方面均优于现有基线,并且与完全微调相比,训练计算成本显著降低了833倍。该解决方案为初级医疗保健提供了一条可扩展的、临床上可行的路径,并在IU-XRay数据集上的额外验证证实了其鲁棒性。
🔬 方法详解
问题定义:论文旨在解决结直肠息肉诊断报告生成中,由于缺乏高质量多模态数据导致的报告不一致性和幻觉问题。现有方法难以生成准确、专业的诊断报告,限制了其在临床实践中的应用。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)的强大能力,通过参数高效微调和偏好对齐,使其能够理解和生成符合临床标准的息肉诊断报告。通过构建高质量的多模态数据集,并采用LoRA和DPO等技术,降低训练成本,提高模型性能。
技术框架:LDP框架主要包含以下几个阶段:1) 构建多模态内窥镜数据集MMEndo,包含专家标注的结肠镜图像-文本对;2) 使用LoRA对Qwen2-VL-7B主干模型进行参数高效微调,使其具备初步的图像理解和文本生成能力;3) 利用DPO算法,根据临床专家的偏好,对模型进行对齐,使其生成的报告更符合临床标准。
关键创新:论文的关键创新在于:1) 提出了LDP框架,将多模态LLM应用于医疗报告生成任务;2) 构建了高质量的多模态内窥镜数据集MMEndo;3) 采用LoRA和DPO等技术,实现了参数高效微调和偏好对齐,显著降低了训练成本。与现有方法相比,LDP能够生成更准确、更专业的诊断报告。
关键设计:论文的关键设计包括:1) MMEndo数据集的构建,保证了数据的质量和多样性;2) LoRA的参数设置,需要在性能和效率之间进行权衡;3) DPO的偏好数据收集和训练策略,需要保证偏好数据的准确性和代表性。具体参数设置和损失函数细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LDP框架在息肉诊断报告生成任务上取得了显著的性能提升,医师评分达到7.2/10,优于现有基线方法。更重要的是,LDP通过LoRA等参数高效微调技术,将训练计算成本降低了833倍,为MLLM在医疗领域的应用提供了可行的解决方案。在IU-XRay数据集上的验证也表明了LDP的鲁棒性。
🎯 应用场景
该研究成果可应用于结直肠癌的早期筛查和诊断,辅助医生生成高质量的诊断报告,提高诊断效率和准确性。LDP框架具有可扩展性,有望推广到其他医学影像报告生成任务中,为初级医疗保健提供更便捷、高效的解决方案,具有重要的临床应用价值和潜在的社会效益。
📄 摘要(原文)
Colonoscopic polyp diagnosis is pivotal for early colorectal cancer detection, yet traditional automated reporting suffers from inconsistencies and hallucinations due to the scarcity of high-quality multimodal medical data. To bridge this gap, we propose LDP, a novel framework leveraging multimodal large language models (MLLMs) for professional polyp diagnosis report generation. Specifically, we curate MMEndo, a multimodal endoscopic dataset comprising expert-annotated colonoscopy image-text pairs. We fine-tune the Qwen2-VL-7B backbone using Parameter-Efficient Fine-Tuning (LoRA) and align it with clinical standards via Direct Preference Optimization (DPO). Extensive experiments show that our LDP outperforms existing baselines on both automated metrics and rigorous clinical expert evaluations (achieving a Physician Score of 7.2/10), significantly reducing training computational costs by 833x compared to full fine-tuning. The proposed solution offers a scalable, clinically viable path for primary healthcare, with additional validation on the IU-XRay dataset confirming its robustness.