Using Backbone Foundation Model for Evaluating Fairness in Chest Radiography Without Demographic Data
作者: Dilermando Queiroz, André Anjos, Lilian Berton
分类: cs.CV, cs.LG
发布日期: 2024-08-28
备注: Preprint of paper to be presented at Fairness of AI in Medical Imaging (FAIMI) during MICCAI 2024
DOI: 10.1007/978-3-031-72787-0_11
💡 一句话要点
利用主干基础模型在无人口统计数据情况下评估胸部X光片的公平性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像 公平性评估 基础模型 无监督学习 偏差缓解
📋 核心要点
- 医学影像诊断中,模型在不同人群中的表现差异和公平性问题日益突出,但许多数据集缺乏必要的人口统计信息。
- 该研究提出利用预训练基础模型提取特征,构建代表受保护属性(如性别、年龄)的群体,用于后续的公平性评估和偏差缓解。
- 实验表明,该方法在性别识别上有效,能减少分布内和分布外数据集上的性别差异,但在年龄识别上效果不佳,提示基础模型仍需改进。
📝 摘要(中文)
确保机器学习模型在不同人群中表现一致,并将公平性纳入考量,对于推进医学影像诊断和促进公平医疗至关重要。然而,许多数据库缺乏受保护属性或人口统计群体代表性不平衡,这使得评估模型在不同人群中的表现以及应用依赖这些属性的偏差缓解技术变得复杂。本研究旨在探讨使用基础模型的主干作为嵌入提取器,创建代表性别和年龄等受保护属性的群体的有效性。我们建议在偏差缓解的不同阶段(包括预处理、处理中和评估)中使用这些群体。通过使用分布内和分布外场景的数据库,可以发现该方法可以在两个数据库中创建代表性别的群体,并分别减少4.44%和6.16%的分布内和分布外性别属性差异。然而,该模型在处理年龄属性时缺乏鲁棒性,突显了对更根本上公平和鲁棒的基础模型的需求。这些发现表明,该方法在缺乏属性知识的情况下,可以在促进公平性评估方面发挥作用,从而有助于开发更公平的医学诊断。
🔬 方法详解
问题定义:现有医学影像诊断模型在不同人口统计群体中的表现可能存在偏差,导致不公平的诊断结果。许多医学影像数据集缺乏详细的人口统计信息,使得直接评估和缓解这些偏差变得困难。因此,需要一种无需直接访问人口统计数据,也能有效评估和缓解模型偏差的方法。
核心思路:本研究的核心思路是利用预训练的基础模型(Foundation Model)提取图像的深层特征,这些特征能够捕捉到与受保护属性(如性别、年龄)相关的潜在信息。通过对这些特征进行聚类,可以创建代表不同人口统计群体的代理群体,从而在没有明确人口统计数据的情况下,评估和缓解模型偏差。
技术框架:该方法主要包含以下几个阶段:1) 使用预训练的基础模型(如在ImageNet上预训练的ResNet)提取胸部X光片的特征向量。2) 使用聚类算法(如K-means)对特征向量进行聚类,形成若干个群体。3) 将这些群体视为受保护属性的代理,用于评估模型在不同群体上的表现差异,并进行偏差缓解。偏差缓解可以在预处理阶段(如重采样)、处理中阶段(如对抗训练)或评估阶段(如计算群体间的性能差异)进行。
关键创新:该研究的关键创新在于利用预训练基础模型的强大表征能力,在缺乏明确人口统计数据的情况下,构建代表受保护属性的代理群体。这使得在数据隐私敏感或数据缺失的情况下,也能进行公平性评估和偏差缓解。
关键设计:研究中使用了ResNet作为特征提取器,K-means作为聚类算法。实验中,K-means的聚类数量K设置为2,分别代表男性和女性。研究人员比较了在分布内和分布外数据集上,使用该方法构建的群体与真实性别标签之间的相关性,以及使用这些群体进行偏差缓解后的效果。损失函数方面,主要关注模型在不同群体上的性能差异,例如使用差异度量来衡量群体间的性能差距。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地创建代表性别的群体,并在分布内和分布外数据集上分别减少4.44%和6.16%的性别差异。然而,该方法在处理年龄属性时表现不佳,表明当前的基础模型在年龄相关的表征学习方面仍有提升空间。这些结果突显了在开发更公平和鲁棒的医学影像分析模型时,需要更加关注基础模型的选择和训练。
🎯 应用场景
该研究成果可应用于医学影像分析的多个领域,尤其是在缺乏患者人口统计信息的场景下。例如,可以用于评估和改进AI辅助诊断系统在不同性别、年龄群体中的公平性,从而减少误诊和漏诊,提升医疗服务的公平性和可信度。此外,该方法还可以推广到其他涉及敏感属性的机器学习应用中,例如金融风控、招聘等。
📄 摘要(原文)
Ensuring consistent performance across diverse populations and incorporating fairness into machine learning models are crucial for advancing medical image diagnostics and promoting equitable healthcare. However, many databases do not provide protected attributes or contain unbalanced representations of demographic groups, complicating the evaluation of model performance across different demographics and the application of bias mitigation techniques that rely on these attributes. This study aims to investigate the effectiveness of using the backbone of Foundation Models as an embedding extractor for creating groups that represent protected attributes, such as gender and age. We propose utilizing these groups in different stages of bias mitigation, including pre-processing, in-processing, and evaluation. Using databases in and out-of-distribution scenarios, it is possible to identify that the method can create groups that represent gender in both databases and reduce in 4.44% the difference between the gender attribute in-distribution and 6.16% in out-of-distribution. However, the model lacks robustness in handling age attributes, underscoring the need for more fundamentally fair and robust Foundation models. These findings suggest a role in promoting fairness assessment in scenarios where we lack knowledge of attributes, contributing to the development of more equitable medical diagnostics.