Balancing Knowledge Distillation for Imbalance Learning with Bilevel Optimization

📄 arXiv: 2605.17839v1 📥 PDF

作者: Anh B. H. Nguyen, Ba Tho Phan, Viet Cuong Ta

分类: cs.LG, cs.AI

发布日期: 2026-05-18


💡 一句话要点

提出BiKD,通过双层优化平衡知识蒸馏中的样本级损失权重,解决不平衡学习问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 不平衡学习 双层优化 长尾分布 样本加权

📋 核心要点

  1. 不平衡数据下的知识蒸馏中,固定硬损失和软损失的权重导致学生模型学习困难。
  2. BiKD通过双层优化框架,利用权重生成网络动态调整每个样本的硬损失和软损失权重。
  3. 实验表明,BiKD在长尾CIFAR数据集上优于现有平衡蒸馏方法,提升了模型性能。

📝 摘要(中文)

知识蒸馏通过结合硬损失和软损失,将知识从高容量教师模型迁移到紧凑的学生模型。在不平衡数据上,硬损失和软损失之间固定的权重会使学习过程变得脆弱。最近的研究试图在长尾场景中重新加权这些分量。然而,大多数方法没有在样本级别上调整权重,也没有考虑学生在训练过程中的行为。为了解决这个问题,我们提出了BiKD——一个双层框架,可以动态地平衡每个样本的硬损失和软损失。我们采用一个权重生成网络,该网络在小的平衡验证集的指导下,生成自适应的样本权重。现在,学生模型在加权硬损失和软损失的无约束组合下进行训练,允许学生模型放松这两个项。我们进一步提出了一种多步SGD策略,以更准确有效地优化权重模型。在长尾CIFAR-10/100上的实验表明,我们的方法超越了最近的平衡蒸馏方法,并在不同的不平衡因子下表现出色。

🔬 方法详解

问题定义:论文旨在解决不平衡数据下知识蒸馏中硬损失和软损失权重难以平衡的问题。现有方法通常采用固定的权重或全局调整策略,无法针对每个样本的特点进行优化,导致学生模型在少数类上的表现不佳。

核心思路:论文的核心思路是利用双层优化框架,通过一个权重生成网络动态地为每个样本分配硬损失和软损失的权重。权重生成网络的目标是最小化学生模型在平衡验证集上的损失,从而引导学生模型更好地学习少数类知识。

技术框架:BiKD框架包含一个教师模型、一个学生模型和一个权重生成网络。首先,教师模型在原始数据集上进行训练。然后,权重生成网络根据学生模型在平衡验证集上的表现,为每个样本生成硬损失和软损失的权重。最后,学生模型在加权后的硬损失和软损失的组合下进行训练。

关键创新:BiKD的关键创新在于引入了双层优化框架,实现了样本级别的损失权重动态调整。与现有方法相比,BiKD能够更好地适应不平衡数据的特点,提高学生模型在少数类上的表现。此外,论文还提出了一种多步SGD策略,以更准确有效地优化权重模型。

关键设计:权重生成网络是一个小型神经网络,输入是学生模型对样本的预测结果,输出是硬损失和软损失的权重。损失函数采用交叉熵损失。多步SGD策略包括两个阶段:第一阶段使用较大的学习率优化学生模型,第二阶段使用较小的学习率优化权重生成网络。平衡验证集是从原始数据集中随机抽取的,包含相同数量的每个类别样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BiKD在长尾CIFAR-10和CIFAR-100数据集上显著优于现有的平衡蒸馏方法。例如,在不平衡因子为100的CIFAR-10数据集上,BiKD的准确率比最佳基线方法提高了2%以上。此外,消融实验验证了权重生成网络和多步SGD策略的有效性。

🎯 应用场景

该研究成果可应用于各种不平衡数据场景下的知识蒸馏任务,例如医疗诊断、金融风控、异常检测等。通过动态调整样本级别的损失权重,可以提高学生模型在少数类上的性能,从而提升整体模型的泛化能力和鲁棒性。未来,该方法可以进一步扩展到其他类型的知识迁移任务中。

📄 摘要(原文)

Knowledge distillation transfers knowledge from a high capacity teacher to a compact student using a mixture of hard and soft losses. On imbalanced data, a fixed weighting between hard and soft losses becomes brittle the learning process. Recent studies try to reweight these components in long-tailed settings. However, most of these meth- ods do not adapt weights at the sample-wise level and do not take into account the students behavior during training. To address this, we pro- pose BiKD - a bilevel framework that dynamically balances hard and soft losses for each sample. We employ a weight generation network that produces adaptive per-sample weights, guided by a small balanced vali- dation set. The student is now trained with an unconstrained combina- tion of weighted hard and soft losses, allowing the student to relax both terms. We further propose a multi-step SGD strategy to optimize the weight model more accurately and efficiently. Experiments on long-tailed CIFAR-10/100 show that our approach surpasses recent balanced distil- lation methods across imbalance factors.