FairDD: Fair Dataset Distillation

📄 arXiv: 2411.19623v2 📥 PDF

作者: Qihang Zhou, Shenhao Fang, Shibo He, Wenchao Meng, Jiming Chen

分类: cs.CV, cs.AI, cs.CY, cs.LG

发布日期: 2024-11-29 (更新: 2025-10-12)

备注: Accepted by NIPS2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出FairDD框架,解决数据集蒸馏中对受保护属性的偏见问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 公平性 受保护属性 图像分类 模型偏见

📋 核心要点

  1. 现有数据集蒸馏方法忽略了模型在压缩数据集上训练时,对受保护属性(如性别、种族)的偏见问题,导致公平性下降。
  2. FairDD框架通过同步匹配合成数据集与原始数据集的受保护属性分组,避免合成数据偏向多数群体,从而提升公平性。
  3. 实验结果表明,FairDD在多种数据集蒸馏方法上均能有效提升公平性,并在公平性和准确性之间取得良好平衡。

📝 摘要(中文)

数据集蒸馏(DD)已展现出将大型数据集压缩为更小的合成数据集的潜力,尤其是在图像分类任务中。然而,以往研究忽略了一个关键问题:如何确保在这些压缩数据集上训练的模型对于受保护属性(PA,如性别和种族)保持公正。我们的研究表明,数据集蒸馏无法减轻原始数据集中对少数群体的偏见,并且由于压缩数据集的规模较小,这种偏见通常会加剧。为了弥补这一研究空白,我们提出了一个新颖的公平数据集蒸馏(FDD)框架,名为FairDD,它可以无缝应用于各种基于匹配的DD方法,而无需修改其原始架构。FairDD的关键创新在于同步地将合成数据集与原始数据集的PA分组进行匹配,而不是像传统DD那样不加区分地与整个分布对齐,后者通常由多数群体主导。这种同步匹配使合成数据集能够避免崩溃到多数群体,并引导其平衡生成到所有PA组。因此,FairDD可以有效地规范传统DD,使其倾向于对少数群体进行有偏生成,同时保持目标属性的准确性。理论分析和广泛的实验评估表明,与传统DD相比,FairDD显著提高了公平性,并在公平性和准确性之间取得了有希望的权衡。它在各种DD(包括分布和梯度匹配)中的一致优越性使其成为一种通用的FDD方法。

🔬 方法详解

问题定义:数据集蒸馏旨在将大型数据集压缩成更小的合成数据集,以降低存储和计算成本。然而,现有的数据集蒸馏方法通常忽略了公平性问题,即模型在压缩数据集上训练时,可能对某些受保护的属性(如性别、种族)存在偏见。这种偏见在压缩后的数据集上往往会加剧,因为少数群体的信息更容易丢失。

核心思路:FairDD的核心思路是,在数据集蒸馏过程中,不再是简单地将合成数据集与整个原始数据集进行匹配,而是将合成数据集与原始数据集中按照受保护属性分组后的子集分别进行匹配。这样可以确保合成数据集能够更好地代表各个受保护属性的群体,从而减少偏见。

技术框架:FairDD可以作为一个通用框架,应用于各种基于匹配的数据集蒸馏方法。其主要流程包括:1)将原始数据集按照受保护属性进行分组;2)对于每个受保护属性的组,分别计算其与合成数据集之间的匹配损失;3)将所有组的匹配损失加权求和,得到最终的损失函数;4)使用优化算法更新合成数据集,使其能够更好地匹配各个受保护属性的组。

关键创新:FairDD的关键创新在于其同步匹配策略,即同时考虑多个受保护属性分组,并分别计算匹配损失。这种策略可以有效地避免合成数据集偏向多数群体,从而提高公平性。与传统的只考虑整体分布的蒸馏方法相比,FairDD能够更好地保留少数群体的信息。

关键设计:FairDD的关键设计包括:1)如何选择合适的匹配损失函数,例如可以使用分布匹配或梯度匹配等方法;2)如何设置各个受保护属性组的权重,可以根据各个组的大小或重要性进行调整;3)如何选择合适的优化算法,例如可以使用梯度下降或Adam等方法。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,FairDD在多个数据集和多种数据集蒸馏方法上均能显著提高公平性。例如,在CelebA数据集上,使用FairDD可以将公平性指标提升10%以上,同时保持甚至略微提高准确率。此外,FairDD在不同的数据集蒸馏方法(如分布匹配和梯度匹配)上均表现出一致的优越性,证明了其通用性和有效性。

🎯 应用场景

FairDD可应用于各种需要公平性的图像分类任务,例如人脸识别、医疗诊断等。通过使用FairDD,可以生成更公平的压缩数据集,从而训练出对不同人群都具有良好性能的模型。这有助于减少算法歧视,提高社会公平性,并促进人工智能技术的健康发展。

📄 摘要(原文)

Condensing large datasets into smaller synthetic counterparts has demonstrated its promise for image classification. However, previous research has overlooked a crucial concern in image recognition: ensuring that models trained on condensed datasets are unbiased towards protected attributes (PA), such as gender and race. Our investigation reveals that dataset distillation fails to alleviate the unfairness towards minority groups within original datasets. Moreover, this bias typically worsens in the condensed datasets due to their smaller size. To bridge the research gap, we propose a novel fair dataset distillation (FDD) framework, namely FairDD, which can be seamlessly applied to diverse matching-based DD approaches (DDs), requiring no modifications to their original architectures. The key innovation of FairDD lies in synchronously matching synthetic datasets to PA-wise groups of original datasets, rather than indiscriminate alignment to the whole distributions in vanilla DDs, dominated by majority groups. This synchronized matching allows synthetic datasets to avoid collapsing into majority groups and bootstrap their balanced generation to all PA groups. Consequently, FairDD could effectively regularize vanilla DDs to favor biased generation toward minority groups while maintaining the accuracy of target attributes. Theoretical analyses and extensive experimental evaluations demonstrate that FairDD significantly improves fairness compared to vanilla DDs, with a promising trade-off between fairness and accuracy. Its consistent superiority across diverse DDs, spanning Distribution and Gradient Matching, establishes it as a versatile FDD approach. Code is available at https://github.com/zqhang/FairDD.