Bias and Generalizability of Foundation Models across Datasets in Breast Mammography

📄 arXiv: 2505.10579v2 📥 PDF

作者: Elodie Germani, Ilayda Selin Türk, Fatima Zeineddine, Charbel Mourad, Shadi Albarqouni

分类: cs.CV

发布日期: 2025-05-14 (更新: 2025-05-19)

备注: Accepted at the International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2025


💡 一句话要点

研究乳腺钼靶影像中预训练模型的偏见与泛化性,提出公平性感知方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乳腺钼靶影像 预训练模型 公平性 偏见缓解 领域自适应

📋 核心要点

  1. 现有乳腺钼靶影像辅助诊断工具受数据差异和偏见影响,泛化能力不足,限制了临床应用。
  2. 研究通过分析预训练模型在不同数据集和亚组上的表现,揭示了模型存在的偏见问题。
  3. 实验表明,公平性感知技术能更稳定、公平地提升模型在不同亚组上的性能,优于领域自适应方法。

📝 摘要(中文)

乳腺癌计算机辅助诊断工具旨在提升筛查效率,但数据变异性和固有偏见阻碍了其临床应用。尽管预训练模型(FMs)通过利用大规模多样化数据集展现了出色的泛化性和迁移学习能力,但图像质量、标注不确定性和敏感患者属性等因素导致的虚假相关性会削弱其性能。本文利用来自不同来源的大量数据集(包括来自代表性不足地区的数据和内部数据集),探索了FMs在乳腺钼靶影像分类中的公平性和偏见。实验表明,FMs的特定模态预训练可以提高性能,但基于单个数据集特征训练的分类器无法跨域泛化。聚合数据集可提高整体性能,但不能完全消除偏见,导致在极端乳腺密度和年龄组等代表性不足的亚组中存在显著差异。领域自适应策略可以减少这些差异,但通常会带来性能上的权衡。相比之下,公平性感知技术可在各亚组中产生更稳定和公平的性能。这些发现强调了将严格的公平性评估和缓解策略纳入基于FM的模型中的必要性,以促进包容性和可泛化的AI。

🔬 方法详解

问题定义:论文旨在解决乳腺钼靶影像分析中,预训练模型在不同数据集和患者亚组上的泛化性和公平性问题。现有方法在处理来自不同来源、具有不同图像质量和标注方式的数据时,容易受到数据集中存在的偏见的影响,导致模型在特定亚组(如不同年龄、乳腺密度)上的性能差异显著。

核心思路:论文的核心思路是深入分析预训练模型在乳腺钼靶影像上的偏见来源,并探索不同的策略来缓解这些偏见,从而提高模型的泛化性和公平性。通过对比不同数据集上的性能表现,以及应用领域自适应和公平性感知技术,研究旨在找到一种能够有效减少模型偏见,同时保持甚至提升整体性能的方法。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集与预处理:收集来自不同来源的乳腺钼靶影像数据集,并进行必要的预处理,如图像标准化和质量控制。2) 模型训练与评估:使用预训练模型(如在ImageNet或特定模态数据上预训练的模型)提取图像特征,并训练分类器进行乳腺癌诊断。在不同的数据集和亚组上评估模型的性能,以识别潜在的偏见。3) 偏见缓解策略:应用领域自适应技术(如对抗训练)和公平性感知技术(如重加权、对抗性解耦)来减少模型偏见。4) 性能对比与分析:对比不同偏见缓解策略的效果,并分析其对整体性能和公平性的影响。

关键创新:论文的关键创新在于系统性地研究了预训练模型在乳腺钼靶影像分析中的偏见问题,并对比了多种偏见缓解策略的效果。特别地,论文强调了公平性感知技术在提高模型公平性方面的优势,并指出领域自适应方法可能存在性能权衡。

关键设计:论文的关键设计包括:1) 使用来自不同来源的多个乳腺钼靶影像数据集,以模拟真实世界的数据多样性。2) 采用多种评估指标来衡量模型的性能和公平性,如准确率、敏感性、特异性和亚组之间的性能差异。3) 探索了多种偏见缓解策略,包括领域自适应技术(如DANN)和公平性感知技术(如reweighting, adversarial debiasing)。4) 对比了不同策略在不同亚组上的效果,以评估其在提高模型公平性方面的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,虽然在特定模态数据上预训练的FMs可以提高性能,但基于单个数据集训练的分类器无法很好地跨域泛化。聚合数据集可以提高整体性能,但不能完全消除偏见。公平性感知技术在各亚组中产生了更稳定和公平的性能,优于领域自适应方法,后者往往需要在性能上做出权衡。

🎯 应用场景

该研究成果可应用于改进乳腺癌筛查的计算机辅助诊断系统,提高诊断的准确性和公平性。通过减少模型对特定患者亚组的偏见,可以确保所有女性都能获得高质量的医疗服务,尤其是在资源有限或数据代表性不足的地区。未来的研究可以进一步探索更有效的公平性感知算法,并将其应用于其他医学影像分析任务中。

📄 摘要(原文)

Over the past decades, computer-aided diagnosis tools for breast cancer have been developed to enhance screening procedures, yet their clinical adoption remains challenged by data variability and inherent biases. Although foundation models (FMs) have recently demonstrated impressive generalizability and transfer learning capabilities by leveraging vast and diverse datasets, their performance can be undermined by spurious correlations that arise from variations in image quality, labeling uncertainty, and sensitive patient attributes. In this work, we explore the fairness and bias of FMs for breast mammography classification by leveraging a large pool of datasets from diverse sources-including data from underrepresented regions and an in-house dataset. Our extensive experiments show that while modality-specific pre-training of FMs enhances performance, classifiers trained on features from individual datasets fail to generalize across domains. Aggregating datasets improves overall performance, yet does not fully mitigate biases, leading to significant disparities across under-represented subgroups such as extreme breast densities and age groups. Furthermore, while domain-adaptation strategies can reduce these disparities, they often incur a performance trade-off. In contrast, fairness-aware techniques yield more stable and equitable performance across subgroups. These findings underscore the necessity of incorporating rigorous fairness evaluations and mitigation strategies into FM-based models to foster inclusive and generalizable AI.