SLAD : Shared LoRA Adapters for Task Specific Distillation

📄 arXiv: 2605.29726v1 📥 PDF

作者: Reda Bensaid, Yassir Bendou, Vincent Gripon, François Leduc-Primeau

分类: cs.CV

发布日期: 2026-05-28

备注: CVPR Findings 2026


💡 一句话要点

提出SLAD:面向任务特定蒸馏的共享LoRA适配器,提升小模型性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 任务特定蒸馏 低秩适配 知识蒸馏 参数共享 特征对齐 模型压缩 计算机视觉

📋 核心要点

  1. 现有任务特定蒸馏方法在微调教师模型时,会导致教师和学生模型之间特征表示不对齐,阻碍知识有效传递。
  2. 论文提出共享LoRA适配器(SLAD)方法,通过低秩适配和参数共享策略,增强教师和学生模型之间的特征对齐。
  3. 实验表明,SLAD不仅提升了学生模型的性能,也提高了教师模型的性能,同时训练速度更快,并在多个数据集上取得了SOTA结果。

📝 摘要(中文)

在嵌入式系统等资源受限环境中,将缩减尺寸的基础模型适配到下游任务变得越来越流行。这推动了任务特定蒸馏的兴起,即同时将较大和较小版本的同一基础模型适配到同一下游任务,目标是将知识从前者传递到后者。最近的研究表明,使用较大版本的基础模型有助于较小版本的适配。通常,首先通过微调或线性探测来适配较大的模型(教师),然后将其知识提炼到较小的模型(学生)中。虽然微调教师模型通常会提高其性能,但最近的研究表明,探测教师模型可以更好地进行知识蒸馏。我们的研究结果表明,这主要是由于教师模型微调期间教师和学生之间的特征表示不对齐。受现有知识保留工作的启发,我们首先提出利用低秩适配,从而实现更好的特征对齐,进而实现更好的知识转移。基于此,我们进一步通过联合训练期间两个编码器之间适配器的参数共享策略来增强特征对齐。我们提出的方法SLAD显示出教师和学生之间更好的特征对齐,这不仅提高了学生模型的性能,也提高了教师模型的性能,同时训练速度比微调快2倍。通过在多个分类和分割数据集上的大量实验,我们证明了我们方法的准确性和迁移效率的提高,在任务特定蒸馏框架中实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决任务特定蒸馏中,由于教师模型微调导致的特征表示不对齐问题。现有方法直接微调教师模型,虽然提升了教师模型的性能,但破坏了其原有的特征空间,使得学生模型难以有效地从教师模型中学习知识。这种不对齐是知识蒸馏效果不佳的关键瓶颈。

核心思路:论文的核心思路是通过低秩适配(LoRA)和参数共享策略来保持教师和学生模型之间的特征对齐。LoRA通过引入少量可训练参数来调整预训练模型,避免了对整个模型进行微调,从而更好地保留了原始的特征空间。参数共享则进一步促进了教师和学生模型之间的特征对齐,使得学生模型更容易学习到教师模型的知识。

技术框架:SLAD方法包含两个主要阶段:首先,使用LoRA适配器分别适配教师和学生模型。然后,在联合训练阶段,教师和学生模型共享LoRA适配器的部分参数。通过知识蒸馏损失函数,学生模型学习模仿教师模型的输出。整个框架旨在最小化教师和学生模型之间的特征差异,从而提高知识转移的效率。

关键创新:论文的关键创新在于提出了共享LoRA适配器的概念,通过参数共享来增强教师和学生模型之间的特征对齐。与传统的微调方法相比,SLAD方法更好地保留了预训练模型的知识,并促进了知识的有效转移。此外,SLAD方法在提升学生模型性能的同时,也提高了教师模型的性能,这表明该方法具有更强的泛化能力。

关键设计:SLAD方法的关键设计包括:1) 使用LoRA适配器进行低秩适配,减少了训练参数的数量,提高了训练效率;2) 设计了参数共享策略,使得教师和学生模型能够共享LoRA适配器的部分参数,从而增强了特征对齐;3) 使用知识蒸馏损失函数,引导学生模型学习教师模型的输出,从而提高学生模型的性能。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SLAD方法在多个分类和分割数据集上取得了SOTA性能。与传统的微调方法相比,SLAD方法不仅提高了学生模型的准确率,也提高了教师模型的准确率。此外,SLAD方法的训练速度比微调方法快2倍,表明该方法具有更高的训练效率。例如,在某个图像分类数据集上,SLAD方法将学生模型的准确率提高了超过2个百分点。

🎯 应用场景

SLAD方法适用于资源受限环境下的模型部署,例如移动设备、嵌入式系统等。通过将大型预训练模型的知识蒸馏到小型模型中,可以在保证性能的同时,降低模型的计算复杂度和存储空间需求。该方法在图像分类、语义分割等计算机视觉任务中具有广泛的应用前景,并可扩展到自然语言处理等其他领域。

📄 摘要(原文)

In the context of resource-constrained environments such as embedded systems, adapting reduced-size foundation models to downstream tasks has become increasingly popular. This has recently motivated the emerging setting of task-specific distillation, where a larger and a smaller version of the same foundation model are both adapted to the same downstream task, with the goal of transferring knowledge from the former to the latter. Recent work has demonstrated the benefits of using a larger version of the same foundation model to assist the adaptation of a smaller one. Typically, the larger model (teacher) is first adapted via fine-tuning or linear probing before its knowledge is distilled into the smaller model (student). While fine-tuning the teacher often increases its performance, recent work showed that probing it leads to better knowledge distillation to the student. Our findings show that this is mainly due to a mis-alignment in feature representation between the teacher and the student which occurs during the teacher's fine-tuning. Inspired by existing efforts to preserve previously learned knowledge, we first propose leveraging low-rank adaptation, resulting in better feature alignment and therefore better knowledge transfer. Drawing from this insight, we further enhance the feature alignment through a parameter-sharing strategy of the adapters between the two encoders during joint training. Our proposed method, SLAD, shows better feature alignment between the teacher and student, which results in increased performance for not only the student but also the teacher model, while being 2x faster to train than fine-tuning. Through extensive experiments on multiple classification and segmentation datasets, we demonstrate the improved accuracy and transfer efficiency of our method, achieving state-of-the-art performance in the task-specific distillation framework.