Fair Dataset Distillation via Cross-Group Barycenter Alignment

📄 arXiv: 2605.00185v1 📥 PDF

作者: Mohammad Hossein Moslemi, Nima Hosseini Dashtbayaz, Zhimin Mei, Boyu Wang, Bissan Ghaddar

分类: cs.LG, cs.AI

发布日期: 2026-04-30

备注: Accepted by ICML 2026


💡 一句话要点

提出基于跨组重心对齐的公平数据集蒸馏方法,解决子群体性能差异问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 公平性 群体偏差 跨组重心对齐 表示学习

📋 核心要点

  1. 数据集蒸馏在群体不平衡时,易导致模型在少数群体上性能下降,产生公平性问题。
  2. 通过寻找一个群体失衡无关的预测信息重心,使所有子群体学习到相似的表示,从而减少偏差。
  3. 该方法兼容现有蒸馏方法,实验证明能有效减少数据集蒸馏引入的偏差,提升公平性。

📝 摘要(中文)

数据集蒸馏旨在将大型数据集压缩成小型合成数据集,同时保持预测性能。本文指出,由于不同人口群体表现出不同的预测模式,蒸馏过程难以同时为所有子群体保留信息信号,无论群体规模是否严重失衡。因此,在蒸馏数据上训练的模型在某些子群体上可能会出现显著的性能下降,导致公平性差距。重要的是,仅仅纠正群体失衡并不能消除这些差距,因为它们源于子群体预测模式的根本不匹配,而不仅仅是样本量差异。因此,本文正式分析了这两种偏差来源之间的相互作用,并将解决方案定义为识别预测信息的群体失衡无关的重心,该重心在所有子群体中诱导相似的表示。通过向这种共享的聚合表示进行蒸馏,可以减少群体公平性问题。该方法与现有的蒸馏方法兼容,实验结果表明,它大大减少了数据集蒸馏引入的偏差。

🔬 方法详解

问题定义:数据集蒸馏旨在压缩数据集,但现有方法在处理具有不同预测模式的子群体时,容易忽略少数群体的特征,导致模型在这些群体上的性能下降,产生不公平性。即使纠正了群体不平衡问题,由于子群体预测模式的根本差异,这种不公平性仍然存在。

核心思路:论文的核心思路是找到一个“公平”的蒸馏目标,这个目标能够代表所有子群体的预测信息,并且对群体规模的差异不敏感。具体来说,就是寻找一个跨组的预测信息重心(barycenter),使得每个子群体都尽可能接近这个重心。这样,模型在蒸馏后的数据集上训练时,就能兼顾所有子群体的利益,减少性能差异。

技术框架:该方法可以与现有的数据集蒸馏方法相结合。整体流程如下:1. 使用现有蒸馏方法生成初始的蒸馏数据集。2. 计算每个子群体在初始蒸馏数据集上的预测表示。3. 计算所有子群体预测表示的加权平均,得到跨组重心。权重可以根据不同的公平性指标进行调整。4. 调整蒸馏数据集,使得模型在蒸馏数据集上的预测表示尽可能接近跨组重心。

关键创新:该方法最重要的创新点在于提出了跨组重心对齐的概念,将公平性问题转化为寻找一个对所有子群体都具有代表性的蒸馏目标。与以往关注群体不平衡的方法不同,该方法直接针对子群体预测模式的差异进行优化,从而更有效地减少了偏差。

关键设计:关键设计包括:1. 如何选择合适的预测表示:可以使用模型中间层的输出作为预测表示。2. 如何计算跨组重心:可以使用加权平均,权重可以根据子群体的大小、性能或其他公平性指标进行调整。3. 如何调整蒸馏数据集:可以使用梯度下降等优化方法,使得模型在蒸馏数据集上的预测表示尽可能接近跨组重心。损失函数可以设计为预测表示与跨组重心之间的距离。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著减少数据集蒸馏引入的偏差,提高模型在少数群体上的性能。与现有方法相比,该方法在多个数据集上都取得了更好的公平性指标,并且在保持整体性能的同时,显著缩小了不同群体之间的性能差距。具体的性能提升幅度取决于数据集和任务,但总体趋势是该方法能够有效改善数据集蒸馏的公平性。

🎯 应用场景

该研究成果可应用于各种需要数据集蒸馏的场景,尤其是在涉及敏感属性(如种族、性别)的数据集上。例如,在医疗诊断、金融风控等领域,可以利用该方法生成更公平的蒸馏数据集,从而训练出对所有群体都具有良好性能的模型,避免歧视性结果。

📄 摘要(原文)

Dataset Distillation aims to compress a large dataset into a small synthetic one while maintaining predictive performance. We show that as different demographic groups exhibit distinct predictive patterns, the distillation process struggles to simultaneously preserve informative signals for all subgroups, regardless of whether group sizes are mildly or severely imbalanced. Consequently, models trained on distilled data can experience substantial performance drops for certain subgroups, leading to fairness gaps. Crucially, these gaps do not disappear by merely correcting group imbalance, since they stem from fundamental mismatches in subgroup predictive patterns rather than from sample-size disparities alone. We therefore formally analyze the interaction between these two sources of bias and cast the solution as identifying a group-imbalance-agnostic barycenter of the predictive information that induces similar representations across all subgroups. By distilling toward this shared aggregate representation, we show that group fairness concerns can be reduced. Our approach is compatible with existing distillation methods, and empirical results show that it substantially reduces bias introduced by dataset distillation.