Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation
作者: Kang Liu, Zhuoqi Ma, Xiaolu Kang, Yunan Li, Kun Xie, Zhicheng Jiao, Qiguang Miao
分类: cs.CV, cs.AI
发布日期: 2025-02-27
备注: Accepted by CVPR 2025
期刊: 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2025, pp. 10348-10359
DOI: 10.1109/CVPR52734.2025.00968
💡 一句话要点
提出MLRG模型,利用多视角纵向数据和对比学习增强胸部X光报告生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 胸部X光报告生成 多视角学习 纵向数据 对比学习 医学影像 自然语言生成 时空信息
📋 核心要点
- 现有胸部X光报告生成方法主要依赖单视角图像,忽略了多视角空间信息和疾病的时间演进信息。
- MLRG模型通过多视角纵向对比学习,融合空间和时间信息,并利用放射报告的时空信息进行监督预训练。
- 实验结果表明,MLRG在多个数据集上显著优于现有方法,提升了报告生成的准确性和诊断性能。
📝 摘要(中文)
本文提出了一种增强对比学习的多视角纵向数据胸部X光报告生成方法,命名为MLRG。现有方法主要关注单视角或固定视角图像,限制了诊断准确性并忽略了疾病进展。MLRG集成了当前多视角图像的空间信息和纵向数据的时间信息,利用多视角纵向对比学习,并利用放射报告固有的时空信息来监督视觉和文本表示的预训练。此外,提出了一种token化的缺失编码技术,灵活处理患者特定先验知识的缺失,从而生成更准确的放射报告。在MIMIC-CXR、MIMIC-ABN和Two-view CXR数据集上的实验表明,MLRG优于当前最先进的方法,在MIMIC-CXR上实现了2.3%的BLEU-4提升,在MIMIC-ABN上实现了5.5%的F1分数提升,在Two-view CXR上实现了2.7%的F1 RadGraph提升。
🔬 方法详解
问题定义:现有胸部X光报告生成方法主要依赖单张或固定视角的图像,无法充分利用多视角图像提供的空间信息,也忽略了患者历史影像数据中蕴含的疾病发展趋势信息。这导致生成的报告可能不够准确,无法全面反映患者的病情变化。
核心思路:本文的核心思路是利用多视角纵向数据,通过对比学习的方式,同时学习图像的空间信息和时间信息。具体来说,模型将当前的多视角图像和历史的纵向数据结合起来,通过对比学习,使得模型能够更好地理解疾病的当前状态和发展趋势。此外,还利用放射报告本身的时空信息来监督视觉和文本表示的预训练过程。
技术框架:MLRG模型主要包含以下几个模块:1) 多视角图像编码器:用于提取当前多视角图像的特征表示。2) 纵向数据编码器:用于提取患者历史影像数据的特征表示。3) 对比学习模块:通过对比学习,将多视角图像和纵向数据的特征表示对齐,从而学习到疾病的空间和时间信息。4) 报告生成器:根据学习到的图像特征和时间信息,生成放射报告。5) 缺失编码模块:用于处理患者先验知识缺失的情况。
关键创新:MLRG的关键创新点在于:1) 提出了多视角纵向对比学习方法,能够同时学习图像的空间信息和时间信息。2) 利用放射报告的时空信息来监督视觉和文本表示的预训练过程。3) 提出了token化的缺失编码技术,能够灵活处理患者先验知识缺失的情况。
关键设计:在对比学习模块中,使用了InfoNCE损失函数,用于最大化正样本之间的相似度,最小化负样本之间的相似度。在缺失编码模块中,将缺失的先验知识表示为一个特殊的token,并将其输入到模型中,从而使得模型能够根据可用的信息生成报告。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
MLRG模型在三个公开数据集上取得了显著的性能提升。在MIMIC-CXR数据集上,BLEU-4指标提升了2.3%;在MIMIC-ABN数据集上,F1分数提升了5.5%;在Two-view CXR数据集上,F1 RadGraph指标提升了2.7%。这些结果表明,MLRG模型能够有效地利用多视角纵向数据,提高报告生成的质量。
🎯 应用场景
该研究成果可应用于辅助放射科医生进行胸部X光报告的自动生成,减轻医生的工作负担,提高诊断效率和准确性。尤其在医疗资源匮乏的地区,该技术可以提供更便捷的医疗服务,具有重要的社会价值。未来,该技术可以扩展到其他医学影像报告生成领域,例如CT、MRI等。
📄 摘要(原文)
Automated radiology report generation offers an effective solution to alleviate radiologists' workload. However, most existing methods focus primarily on single or fixed-view images to model current disease conditions, which limits diagnostic accuracy and overlooks disease progression. Although some approaches utilize longitudinal data to track disease progression, they still rely on single images to analyze current visits. To address these issues, we propose enhanced contrastive learning with Multi-view Longitudinal data to facilitate chest X-ray Report Generation, named MLRG. Specifically, we introduce a multi-view longitudinal contrastive learning method that integrates spatial information from current multi-view images and temporal information from longitudinal data. This method also utilizes the inherent spatiotemporal information of radiology reports to supervise the pre-training of visual and textual representations. Subsequently, we present a tokenized absence encoding technique to flexibly handle missing patient-specific prior knowledge, allowing the model to produce more accurate radiology reports based on available prior knowledge. Extensive experiments on MIMIC-CXR, MIMIC-ABN, and Two-view CXR datasets demonstrate that our MLRG outperforms recent state-of-the-art methods, achieving a 2.3% BLEU-4 improvement on MIMIC-CXR, a 5.5% F1 score improvement on MIMIC-ABN, and a 2.7% F1 RadGraph improvement on Two-view CXR.