A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

📄 arXiv: 2602.22843v1 📥 PDF

作者: Chong Wang, Yabin Zhang, Yunhe Gao, Maya Varma, Clemence Mottez, Faidra Patsatzi, Jiaming Liu, Jin Long, Jean-Benoit Delbrouck, Sergios Gatidis, Akshay S. Chaudhari, Curtis P. Langlotz

分类: cs.CV

发布日期: 2026-02-26


💡 一句话要点

提出CheXficient,通过主动数据选择,高效构建胸部X光影像基础模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胸部X光 医学影像 基础模型 主动学习 数据选择

📋 核心要点

  1. 大规模医学数据集存在冗余和类别不平衡,导致模型学习偏差,影响性能。
  2. CheXficient通过主动选择信息量大的样本进行预训练,提高数据和计算效率。
  3. 实验表明,CheXficient在多个任务上表现优异,尤其在罕见疾病上泛化能力更强。

📝 摘要(中文)

医学影像领域的基础模型通常依赖于大规模数据集的预训练,但这种“不惜一切代价扩大规模”的策略面临数据冗余和类别不平衡等挑战,导致表征学习偏向于过度表示的模式,且忽略数据质量异质性造成计算效率低下。本文提出CheXficient,一种胸部X光(CXR)基础模型,通过选择性地优先考虑信息量大的训练样本,以更经济有效的方式进行预训练。CheXficient仅使用1,235,004张配对CXR图像和报告的22.7%进行预训练,并消耗不到27.3%的总计算预算,却实现了与全数据模型和其他大规模预训练模型相当甚至更优越的性能。在涵盖5种任务类型的20个基准上评估了CheXficient,包括非自适应的开箱即用评估(零样本发现分类和跨模态检索)和自适应的下游任务(疾病预测、语义分割和放射学报告生成)。分析表明,CheXficient系统地优先考虑了代表性不足的训练样本,提高了对长尾或罕见疾病的泛化能力。该工作为医学视觉-语言基础模型的高效预训练和下游自适应提供了数据和计算需求方面的实践见解。

🔬 方法详解

问题定义:现有医学影像基础模型依赖于大规模数据集的暴力预训练,但医学影像数据集中存在大量冗余信息和严重的类别不平衡问题,导致模型学习到的表征偏向于常见模式,忽略了罕见疾病。此外,不考虑数据质量的差异性进行训练,也造成了计算资源的浪费。因此,如何高效地利用有限的医学影像数据,训练出具有良好泛化能力的医学影像基础模型是一个关键问题。

核心思路:本文的核心思路是通过主动学习的方式,选择信息量更大的样本进行预训练,从而提高数据利用率和计算效率。具体来说,就是设计一种策略,能够识别并优先选择那些能够提供更多信息的样本,例如包含罕见疾病的样本,或者具有较高质量的样本。

技术框架:CheXficient的整体框架包括以下几个主要步骤:1) 数据选择:使用设计的策略对训练数据进行排序,选择信息量最大的子集。2) 预训练:使用选择的数据子集对模型进行预训练。3) 下游任务适配:将预训练好的模型应用于各种下游任务,例如疾病预测、语义分割和放射学报告生成。

关键创新:本文最重要的创新点在于提出了主动数据选择策略,该策略能够有效地识别并选择信息量大的样本,从而提高模型的训练效率和泛化能力。与传统的暴力预训练方法相比,CheXficient能够在更少的数据和计算资源下,达到甚至超过现有模型的性能。

关键设计:数据选择策略的具体实现可能包括以下几个方面:1) 使用模型的不确定性作为样本信息量的指标,选择模型预测不确定性高的样本。2) 考虑样本的类别分布,优先选择代表性不足的类别中的样本。3) 结合专家知识,对样本进行质量评估,选择高质量的样本。损失函数的设计可能需要考虑类别不平衡问题,例如使用focal loss或者class-balanced loss。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CheXficient仅使用22.7%的胸部X光图像和27.3%的计算资源,在20个基准测试中,实现了与全数据训练模型和其他大规模预训练模型相当甚至更优越的性能。尤其在长尾或罕见疾病的诊断方面,CheXficient表现出更强的泛化能力,证明了主动数据选择策略的有效性。

🎯 应用场景

该研究成果可应用于多种医学影像分析任务,例如疾病诊断、病情评估和治疗方案制定。通过高效构建医学影像基础模型,可以降低模型训练成本,加速医学影像分析技术的普及,并提高医疗诊断的准确性和效率,尤其是在罕见疾病的诊断方面具有重要意义。未来,该方法可以推广到其他医学影像模态,例如CT和MRI。

📄 摘要(原文)

Foundation models for medical imaging are typically pretrained on increasingly large datasets, following a "scale-at-all-costs" paradigm. However, this strategy faces two critical challenges: large-scale medical datasets often contain substantial redundancy and severe class imbalance that bias representation learning toward over-represented patterns, and indiscriminate training regardless of heterogeneity in data quality incurs considerable computational inefficiency. Here we demonstrate that active, principled data curation during pretraining can serve as a viable, cost-effective alternative to brute-force dataset enlargement. We introduce CheXficient, a chest X-ray (CXR) foundation model that selectively prioritizes informative training samples. CheXficient is pretrained on only 22.7% of 1,235,004 paired CXR images and reports while consuming under 27.3% of the total compute budget, yet achieving comparable or superior performance to its full-data counterpart and other large-scale pretrained models. We assess CheXficient across 20 individual benchmarks spanning 5 task types, including non-adapted off-the-shelf evaluations (zero-shot findings classification and crossmodal retrieval) and adapted downstream tasks (disease prediction, semantic segmentation, and radiology report generation). Further analyses show that CheXficient systematically prioritizes under-represented training samples, improving generalizability on long-tailed or rare conditions. Overall, our work offers practical insights into the data and computation demands for efficient pretraining and downstream adaptation of medical vision-language foundation models.