Chest X-ray Foundation Model with Global and Local Representations Integration

📄 arXiv: 2502.05142v2 📥 PDF

作者: Zefan Yang, Xuanang Xu, Jiajin Zhang, Ge Wang, Mannudeep K. Kalra, Pingkun Yan

分类: eess.IV, cs.CV

发布日期: 2025-02-07 (更新: 2025-06-19)

备注: Accepted by IEEE Transactions on Medical Imaging (TMI)

🔗 代码/项目: GITHUB


💡 一句话要点

CheXFound:融合全局与局部表征的胸部X光片基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胸部X光片 基础模型 自监督学习 全局局部表征集成 医学影像分析

📋 核心要点

  1. 现有胸部X光片分类模型泛化性差,依赖大量标注数据,难以适应分布外数据集。
  2. CheXFound通过自监督学习,预训练大规模CXR数据集,并提出GLoRI模块融合全局与局部特征。
  3. 实验表明,CheXFound在疾病分类、风险评估和死亡率预测等任务上均优于现有方法,标签效率更高。

📝 摘要(中文)

本文提出CheXFound,一个自监督视觉基础模型,旨在学习鲁棒的胸部X光片(CXR)表征,并有效泛化到各种下游任务。该模型在包含超过一百万张CXR的CXR-1M数据集上进行预训练。为了增强多标签分类性能,论文提出了全局与局部表征集成(GLoRI)模块,将疾病特异性的局部特征与全局图像特征相结合,用于下游任务的适配。实验结果表明,CheXFound在CXR-LT 24数据集上,对40种不同患病率的疾病表现出优于现有模型的分类性能,并在有限训练数据的下游任务中表现出卓越的标签效率。此外,CheXFound在新任务上,包括机会性心血管疾病风险评估和死亡率预测,也取得了显著的改进。这些结果突显了CheXFound强大的泛化能力,使其能够通过改进的标签效率进行多样化的适配。

🔬 方法详解

问题定义:胸部X光片(CXR)分析在临床诊断中至关重要,但现有方法通常针对特定任务设计,需要大量标注数据,且泛化能力有限,难以适应不同分布的数据集。现有模型的痛点在于缺乏通用的、鲁棒的CXR表征学习方法。

核心思路:论文的核心思路是利用自监督学习,在大规模未标注的CXR数据集上预训练一个基础模型(CheXFound),使其能够学习到通用的CXR表征。然后,通过提出的全局与局部表征集成(GLoRI)模块,将全局图像特征与疾病相关的局部特征相结合,从而提升模型在下游任务中的性能和泛化能力。

技术框架:CheXFound的整体框架包括两个主要阶段:预训练阶段和下游任务适配阶段。在预训练阶段,模型采用自监督学习方法,在大规模CXR-1M数据集上学习CXR的通用表征。在下游任务适配阶段,利用GLoRI模块,将预训练的CheXFound模型与特定任务的数据集进行微调,以适应不同的临床应用。

关键创新:论文的关键创新在于提出了GLoRI模块,该模块能够有效地融合全局图像特征和疾病特异性的局部特征。与传统的仅使用全局特征或局部特征的方法相比,GLoRI模块能够更全面地捕捉CXR图像中的信息,从而提升模型在多标签分类等任务中的性能。此外,CheXFound作为一个基础模型,能够通过微调快速适应新的任务和数据集,具有很强的泛化能力。

关键设计:在预训练阶段,使用了对比学习等自监督学习方法,具体细节未知。GLoRI模块的设计细节也未知,但可以推测其可能包含注意力机制或特征融合策略,以实现全局和局部特征的有效集成。损失函数方面,可能采用了多标签分类常用的损失函数,如二元交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CheXFound在CXR-LT 24数据集上,对40种疾病的分类性能优于现有方法,并在机会性心血管疾病风险评估和死亡率预测等新任务上取得了显著改进。此外,CheXFound在有限标注数据的情况下,依然表现出卓越的性能,表明其具有很高的标签效率和泛化能力。代码已开源。

🎯 应用场景

CheXFound具有广泛的应用前景,可用于胸部疾病的自动诊断、疾病风险评估、预后预测以及大规模人群筛查。该模型能够降低对标注数据的依赖,提高诊断效率和准确性,并有望辅助医生进行临床决策,改善患者的治疗效果。未来,CheXFound可以进一步扩展到其他医学影像领域,构建更通用的医学影像基础模型。

📄 摘要(原文)

Chest X-ray (CXR) is the most frequently ordered imaging test, supporting diverse clinical tasks from thoracic disease detection to postoperative monitoring. However, task-specific classification models are limited in scope, require costly labeled data, and lack generalizability to out-of-distribution datasets. To address these challenges, we introduce CheXFound, a self-supervised vision foundation model that learns robust CXR representations and generalizes effectively across a wide range of downstream tasks. We pretrain CheXFound on a curated CXR-1M dataset, comprising over one million unique CXRs from publicly available sources. We propose a Global and Local Representations Integration (GLoRI) module for downstream adaptations, by incorporating disease-specific local features with global image features for enhanced performance in multilabel classification. Our experimental results show that CheXFound outperforms state-of-the-art models in classifying 40 disease findings across different prevalence levels on the CXR-LT 24 dataset and exhibits superior label efficiency on downstream tasks with limited training data. Additionally, CheXFound achieved significant improvements on new tasks with out-of-distribution datasets, including opportunistic cardiovascular disease risk estimation and mortality prediction. These results highlight CheXFound's strong generalization capabilities, enabling diverse adaptations with improved label efficiency. The project source code is publicly available at https://github.com/RPIDIAL/CheXFound.