Does Data-Efficient Generalization Exacerbate Bias in Foundation Models?
作者: Dilermando Queiroz, Anderson Carlos, Maíra Fatoretto, Luis Filipe Nakayama, André Anjos, Lilian Berton
分类: cs.CV, cs.LG
发布日期: 2024-08-28 (更新: 2024-09-02)
备注: Preprint of paper to be presented at Fairness and Ethics Towards Transparent AI: Facing the Challenge through Model Debiasing (FAILED) during ECCV 2024
💡 一句话要点
研究表明数据高效的通用化可能加剧Foundation模型中的偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Foundation模型 公平性 数据偏差 医学影像 数据高效 迁移学习 眼科诊断
📋 核心要点
- 医学影像领域缺乏标注数据,Foundation模型展现出潜力,但其公平性受预训练数据偏差影响,需要深入研究。
- 该研究使用RetFound模型在BRSET数据集上进行微调,评估其在不同性别和年龄组上的表现,分析数据量对公平性的影响。
- 实验结果表明,Foundation模型在一定程度上能减少不同群体间的性能差距,但在数据量较少时,偏见反而会加剧。
📝 摘要(中文)
Foundation模型已成为在各个领域具有标签效率的强大模型。在医学影像领域,由于难以获取带标签的数据,这些模型有助于推动医学诊断的发展。然而,目前尚不清楚在预训练期间使用大量受敏感属性影响的无标签数据,是否会影响模型的公平性。本研究考察了Foundation模型(RetFound)在微调巴西多标签眼科数据集(BRSET)时的偏差,该数据集与预训练数据集具有不同的人群分布。与监督学习相比,模型评估表明,Foundation模型有潜力缩小跨性别和年龄组的最大AUC和最小AUC评估之间的差距。然而,在数据高效的通用化中,当数据量减少时,模型会增加偏差。这些发现表明,在数据有限的实际场景中部署Foundation模型时,应考虑公平性问题的可能性。
🔬 方法详解
问题定义:论文旨在研究Foundation模型在数据高效场景下,泛化到新数据集时,是否会加剧由预训练数据中的敏感属性(如性别、年龄)引起的偏见。现有方法缺乏对这一问题的深入分析,尤其是在医学影像领域,数据偏差可能导致诊断结果的不公平性。
核心思路:论文的核心思路是,通过在具有不同人群分布的眼科数据集上微调预训练的Foundation模型,并评估其在不同敏感属性分组上的性能差异,来量化模型中的偏见程度。同时,研究数据量对偏见的影响,分析数据高效泛化是否会放大偏见。
技术框架:整体框架包括以下几个步骤:1) 使用RetFound作为Foundation模型;2) 在巴西多标签眼科数据集(BRSET)上进行微调;3) 将数据集按性别和年龄分组;4) 使用AUC作为评估指标,计算每个分组的性能;5) 比较不同数据量下,Foundation模型和监督学习模型的性能差异,以及不同分组间的性能差距。
关键创新:该研究的关键创新在于,它关注了Foundation模型在数据高效泛化场景下的公平性问题,并提出了一个评估框架,用于量化模型中的偏见。与以往的研究不同,该研究不仅关注模型的整体性能,更关注模型在不同敏感属性分组上的性能差异,从而更全面地评估模型的公平性。
关键设计:论文使用了RetFound模型,这是一个在大量医学影像数据上预训练的Foundation模型。BRSET数据集是一个多标签眼科数据集,包含多种眼科疾病的标注。论文使用AUC作为评估指标,因为它能够反映模型在不同阈值下的性能表现。此外,论文还比较了不同数据量下,Foundation模型和监督学习模型的性能差异,从而分析数据高效泛化对偏见的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与监督学习相比,Foundation模型在一定程度上能减少不同性别和年龄组之间的性能差距。然而,在数据量较少的情况下,Foundation模型反而会加剧偏见,导致不同群体之间的性能差异增大。这表明在数据高效的通用化中,需要特别关注Foundation模型的公平性问题。
🎯 应用场景
该研究成果可应用于医学影像诊断领域,帮助开发更公平、可靠的AI辅助诊断系统。通过评估和缓解Foundation模型中的偏见,可以避免模型在实际应用中对特定人群产生歧视,提高医疗服务的公平性和可及性。未来的研究可以探索更多缓解偏见的方法,例如对抗训练、数据增强等。
📄 摘要(原文)
Foundation models have emerged as robust models with label efficiency in diverse domains. In medical imaging, these models contribute to the advancement of medical diagnoses due to the difficulty in obtaining labeled data. However, it is unclear whether using a large amount of unlabeled data, biased by the presence of sensitive attributes during pre-training, influences the fairness of the model. This research examines the bias in the Foundation model (RetFound) when it is applied to fine-tune the Brazilian Multilabel Ophthalmological Dataset (BRSET), which has a different population than the pre-training dataset. The model evaluation, in comparison with supervised learning, shows that the Foundation Model has the potential to reduce the gap between the maximum AUC and minimum AUC evaluations across gender and age groups. However, in a data-efficient generalization, the model increases the bias when the data amount decreases. These findings suggest that when deploying a Foundation Model in real-life scenarios with limited data, the possibility of fairness issues should be considered.