Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification

📄 arXiv: 2501.19086v1 📥 PDF

作者: Xiangyu Sun, Xiaoguang Zou, Yuanquan Wu, Guotai Wang, Shaoting Zhang

分类: cs.CV, cs.AI

发布日期: 2025-01-31

备注: This paper has been accepted for presentation at the 2025 IEEE International Symposium on Biomedical Imaging (ISBI 2025)


💡 一句话要点

针对X射线图像分类,分析CLIP类模型在不同人口统计学属性上的公平性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: X射线图像分类 CLIP模型 公平性分析 医学影像 零样本学习 微调 人口统计学属性

📋 核心要点

  1. 现有CLIP模型在医学图像分类中存在公平性问题,尤其是在不同人口统计学属性上表现不一致。
  2. 通过零样本推理和多种微调策略,全面评估CLIP类模型在X射线图像分类中的公平性表现。
  3. 实验结果表明,微调虽然能提升模型准确率,但无法有效解决公平性问题,需要进一步的公平性干预。

📝 摘要(中文)

X射线成像在医学诊断中至关重要,能够非侵入性地洞察各种健康状况。近年来,诸如对比语言-图像预训练(CLIP)模型等视觉-语言模型,通过利用大规模图像-文本数据集,展现出提高诊断准确性的潜力。然而,由于CLIP最初并非为医学图像设计,因此开发了一些专门针对医学图像训练的类CLIP模型。尽管它们的性能有所提高,但公平性问题——特别是关于人口统计学属性的公平性——在很大程度上仍未得到解决。在本研究中,我们对应用于X射线图像分类的类CLIP模型进行了全面的公平性分析。我们使用零样本推理和各种微调技术(包括线性探测、多层感知器(MLP)、低秩适应(LoRA)和完全微调)评估了它们在不同患者人口统计学和疾病类别中的性能和公平性。我们的结果表明,虽然微调提高了模型准确性,但公平性问题仍然存在,突显了在这些基础模型中进一步进行公平性干预的必要性。

🔬 方法详解

问题定义:论文旨在解决CLIP类模型在X射线图像分类任务中存在的公平性问题。现有方法,即直接应用或微调CLIP模型,可能在不同人口统计学群体(如不同年龄、性别、种族等)的患者中表现出显著的性能差异,导致诊断偏差。这种不公平性会加剧医疗资源分配不均,损害弱势群体的利益。

核心思路:论文的核心思路是对CLIP类模型在X射线图像分类任务中的公平性进行系统性的评估和分析。通过考察模型在不同人口统计学群体上的性能差异,揭示潜在的偏见来源。同时,研究不同微调策略对公平性的影响,为后续的公平性干预提供依据。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据集准备:收集包含人口统计学信息的X射线图像数据集。2) 模型选择:选择或构建基于CLIP的医学图像分类模型。3) 微调策略:采用多种微调策略,包括线性探测、MLP、LoRA和完全微调。4) 公平性评估:使用合适的公平性指标,评估模型在不同人口统计学群体上的性能差异。5) 结果分析:分析实验结果,识别导致不公平性的因素,并提出改进建议。

关键创新:论文的关键创新在于对CLIP类模型在医学图像分类任务中的公平性进行了全面的实证研究。以往的研究主要关注模型在整体性能上的提升,而忽略了其在不同人群中的表现差异。该研究首次系统地评估了CLIP类模型在X射线图像分类中的公平性,为后续的公平性研究奠定了基础。

关键设计:论文的关键设计包括:1) 选择具有代表性的人口统计学属性(如年龄、性别、种族等)作为公平性评估的依据。2) 采用多种公平性指标,如统计均等、机会均等和预测均等,以全面评估模型的公平性。3) 比较不同微调策略对公平性的影响,为选择合适的微调策略提供指导。4) 对实验结果进行深入分析,识别导致不公平性的潜在因素,并提出改进建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然微调可以提高CLIP类模型在X射线图像分类中的准确率,但公平性问题依然存在。例如,模型在某些人口统计学群体上的表现明显优于其他群体。不同微调策略对公平性的影响也不同,LoRA在一定程度上可以改善公平性,但仍需进一步的公平性干预。这些发现强调了在医学图像分析中关注公平性的重要性。

🎯 应用场景

该研究成果可应用于开发更公平、可靠的医学图像诊断系统。通过识别和缓解模型中的偏见,可以提高诊断的准确性和公正性,减少医疗资源分配不均,改善弱势群体的医疗服务质量。未来的研究可以进一步探索公平性干预方法,如对抗训练、重采样和公平性约束,以构建更具包容性的医学人工智能系统。

📄 摘要(原文)

X-ray imaging is pivotal in medical diagnostics, offering non-invasive insights into a range of health conditions. Recently, vision-language models, such as the Contrastive Language-Image Pretraining (CLIP) model, have demonstrated potential in improving diagnostic accuracy by leveraging large-scale image-text datasets. However, since CLIP was not initially designed for medical images, several CLIP-like models trained specifically on medical images have been developed. Despite their enhanced performance, issues of fairness - particularly regarding demographic attributes - remain largely unaddressed. In this study, we perform a comprehensive fairness analysis of CLIP-like models applied to X-ray image classification. We assess their performance and fairness across diverse patient demographics and disease categories using zero-shot inference and various fine-tuning techniques, including Linear Probing, Multilayer Perceptron (MLP), Low-Rank Adaptation (LoRA), and full fine-tuning. Our results indicate that while fine-tuning improves model accuracy, fairness concerns persist, highlighting the need for further fairness interventions in these foundational models.