A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling
作者: Chong Wang, Yabin Zhang, Yunhe Gao, Maya Varma, Clemence Mottez, Faidra Patsatzi, Jiaming Liu, Jin Long, Jean-Benoit Delbrouck, Sergios Gatidis, Akshay S. Chaudhari, Curtis P. Langlotz
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出CheXficient,通过主动数据选择,高效构建胸部X光影像基础模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胸部X光 基础模型 主动学习 数据选择 医学影像
📋 核心要点
- 现有医学影像基础模型依赖大规模数据集,但数据冗余和类别不平衡导致模型偏向常见模式。
- CheXficient通过主动选择信息量大的训练样本,降低数据和计算需求,提升模型效率。
- 实验表明,CheXficient在多种胸部X光任务上,性能与全数据模型相当甚至更优。
📝 摘要(中文)
医学影像的基础模型通常依赖于大规模数据集的预训练,遵循“不惜一切代价扩大规模”的范式。然而,这种策略面临两个关键挑战:大规模医学数据集通常包含大量的冗余和严重的类别不平衡,这使得表征学习偏向于过度表示的模式;不加区分的训练,而不考虑数据质量的异质性,会导致相当大的计算效率低下。本文证明,在预训练期间进行主动的、有原则的数据管理,可以作为一种可行的、具有成本效益的替代方案,以替代蛮力数据集的扩大。我们介绍CheXficient,一种胸部X光(CXR)基础模型,它有选择地优先考虑信息丰富的训练样本。CheXficient仅在1,235,004个配对的CXR图像和报告的22.7%上进行预训练,并消耗低于总计算预算的27.3%,但实现了与其全数据对应物和其他大规模预训练模型相当或更优越的性能。我们在跨越5种任务类型的20个独立基准上评估CheXficient,包括非适应的现成评估(零样本发现分类和跨模态检索)和适应的下游任务(疾病预测、语义分割和放射学报告生成)。进一步的分析表明,CheXficient系统地优先考虑了代表性不足的训练样本,提高了对长尾或罕见疾病的泛化能力。总的来说,我们的工作为医学视觉-语言基础模型的有效预训练和下游适应的数据和计算需求提供了实用的见解。
🔬 方法详解
问题定义:现有医学影像基础模型训练依赖于大规模数据集,但这些数据集往往存在冗余信息和类别不平衡问题,导致模型训练效率低下,且容易过拟合常见类别,对罕见疾病的诊断能力不足。
核心思路:CheXficient的核心思路是通过主动学习,有选择地优先考虑信息量大的训练样本,从而在更少的数据和计算资源下,训练出性能更优的基础模型。这种方法旨在解决大规模数据集的冗余和类别不平衡问题,提高模型的泛化能力和对罕见疾病的诊断准确率。
技术框架:CheXficient的整体框架包括以下几个主要阶段:1) 数据选择:使用某种策略(具体策略未知)评估每个训练样本的信息量,并选择信息量大的样本进行训练。2) 预训练:在选择的样本上进行预训练,学习图像和文本之间的关联。3) 下游任务适应:将预训练的模型迁移到各种下游任务,如疾病预测、语义分割和放射学报告生成。
关键创新:CheXficient最重要的技术创新点在于其主动数据选择策略。与传统的“不惜一切代价扩大规模”的方法不同,CheXficient通过优先考虑信息量大的样本,实现了数据和计算效率的显著提升。这种方法能够更好地利用有限的资源,训练出更具泛化能力的模型。
关键设计:论文中没有详细说明数据选择策略的具体实现细节,例如如何量化样本的信息量,以及如何选择样本。损失函数和网络结构等技术细节也未知。但可以推测,可能使用了某种基于不确定性或梯度信息的采样方法。
🖼️ 关键图片
📊 实验亮点
CheXficient仅使用22.7%的胸部X光图像数据和27.3%的计算资源,在20个基准测试中,实现了与全数据模型相当甚至更优的性能。尤其在罕见疾病的诊断方面,CheXficient表现出更强的泛化能力,证明了主动数据选择策略的有效性。
🎯 应用场景
CheXficient在医学影像分析领域具有广泛的应用前景,可用于辅助医生进行疾病诊断、病情评估和治疗方案制定。通过高效的预训练和下游任务适应,该模型可以加速医学影像分析流程,提高诊断准确率,并降低医疗成本。未来,该模型有望应用于远程医疗、移动医疗等场景,为更多患者提供优质的医疗服务。
📄 摘要(原文)
Foundation models for medical imaging are typically pretrained on increasingly large datasets, following a "scale-at-all-costs" paradigm. However, this strategy faces two critical challenges: large-scale medical datasets often contain substantial redundancy and severe class imbalance that bias representation learning toward over-represented patterns, and indiscriminate training regardless of heterogeneity in data quality incurs considerable computational inefficiency. Here we demonstrate that active, principled data curation during pretraining can serve as a viable, cost-effective alternative to brute-force dataset enlargement. We introduce CheXficient, a chest X-ray (CXR) foundation model that selectively prioritizes informative training samples. CheXficient is pretrained on only 22.7% of 1,235,004 paired CXR images and reports while consuming under 27.3% of the total compute budget, yet achieving comparable or superior performance to its full-data counterpart and other large-scale pretrained models. We assess CheXficient across 20 individual benchmarks spanning 5 task types, including non-adapted off-the-shelf evaluations (zero-shot findings classification and crossmodal retrieval) and adapted downstream tasks (disease prediction, semantic segmentation, and radiology report generation). Further analyses show that CheXficient systematically prioritizes under-represented training samples, improving generalizability on long-tailed or rare conditions. Overall, our work offers practical insights into the data and computation demands for efficient pretraining and downstream adaptation of medical vision-language foundation models.