AVSD: Adaptive-View Self-Distillation by Balancing Consensus and Teacher-Specific Privileged Signals

📄 arXiv: 2605.20643v1 📥 PDF

作者: Duy Nguyen, Hanqi Xiao, Archiki Prasad, Zaid Khan, Anirban Das, Austin Zhang, Sambit Sahu, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-20

备注: Code: https://github.com/duykhuongnguyen/AVSD


💡 一句话要点

AVSD:通过平衡共识和教师特定特权信号实现自适应视角自蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自蒸馏 多视角学习 特权信息 知识迁移 语言模型 数学问题求解 代码生成

📋 核心要点

  1. 传统自蒸馏方法中,教师模型依赖学生无法获得的特权信息,导致训练和推理阶段存在差异。
  2. AVSD通过分离跨视角的共识信号和视角特定的残差信号,实现更有效的token级别监督。
  3. 实验表明,AVSD在数学和代码生成任务上均优于单视角自蒸馏基线,性能显著提升。

📝 摘要(中文)

本文提出了一种新的自蒸馏方法AVSD(Adaptive-View Self-Distillation),用于解决语言模型自蒸馏中教师依赖于学生无法访问的特权信息以及难以选择单一最佳教师视角的问题。AVSD利用多种特权信息视角,通过分离稳定的跨视角共识和视角特定的残差信号来重建token级别的监督。该方法首先识别跨视角的共识信号,提供可靠的更新方向,然后选择性地添加视角特定的残差信号,以在与共识方向一致且与共识信号成比例时调整更新幅度。在数学竞赛基准测试(AIME24、AIME25和HMMT25)以及代码生成基准测试(Codeforces、LiveCodeBench v6)上的实验表明,AVSD始终优于单视角自蒸馏基线和GRPO。

🔬 方法详解

问题定义:现有的自蒸馏方法在利用特权信息时存在两个主要问题。一是教师模型依赖于学生在推理时无法访问的视角特定信息,导致训练和推理之间的不一致。二是不同类型的特权信息(如解决方案、演示、反馈等)对不同任务的效果不同,难以选择单一最佳视角。这些问题限制了自蒸馏的性能和泛化能力。

核心思路:AVSD的核心思路是利用多个特权信息视角,通过提取跨视角的共识信号和视角特定的残差信号,来构建更鲁棒和有效的token级别监督信号。共识信号代表了不同视角之间的共同知识,可以提供可靠的更新方向;残差信号则捕捉了每个视角的独特信息,可以用于调整更新幅度。

技术框架:AVSD的整体框架包括以下几个主要步骤:1) 使用多个教师模型,每个教师模型基于不同的特权信息视角生成token级别的预测。2) 计算所有教师模型预测之间的共识信号。3) 计算每个教师模型的预测与共识信号之间的残差信号。4) 根据一定的规则,选择性地将残差信号添加到共识信号中,生成最终的监督信号。5) 使用最终的监督信号训练学生模型。

关键创新:AVSD的关键创新在于其自适应地融合多个视角信息的方式。它不是简单地平均或选择某个视角的信息,而是通过分离共识和残差信号,并根据一定的规则选择性地融合残差信号,从而更好地利用了不同视角的信息。这种方法可以有效地减少视角特定信息对学生模型的影响,并提高模型的泛化能力。

关键设计:AVSD的关键设计包括:1) 共识信号的计算方法,可以使用平均、投票等方式。2) 残差信号的计算方法,可以使用简单的减法或更复杂的模型。3) 残差信号的选择规则,需要考虑残差信号与共识信号之间的关系,以及残差信号的幅度。论文中提到,残差信号的选择需要与共识方向一致,并且与共识信号成比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AVSD在数学竞赛基准测试(AIME24、AIME25和HMMT25)上,相比最强的单视角自蒸馏基线,在Qwen3-8B和Qwen3-4B模型上分别取得了平均3.1%和2.2%的Avg@8增益。在代码生成基准测试(Codeforces、LiveCodeBench v6)上,使用Qwen3-8B模型时,AVSD相比单视角自蒸馏基线平均提升了2.4%。这些结果表明AVSD能够有效提升模型的性能。

🎯 应用场景

AVSD具有广泛的应用前景,可以应用于各种需要利用特权信息进行自蒸馏的任务中,例如数学问题求解、代码生成、自然语言推理等。该方法可以提高模型的性能和泛化能力,并减少对外部数据的依赖。未来,AVSD还可以应用于多模态学习、强化学习等领域。

📄 摘要(原文)

Self-distillation enables language models to learn on-policy from their own trajectories by using the same model as both student and teacher, with the teacher being conditioned on privileged information unavailable to the student. Such information can come in different types or views, such as solutions, demonstrations, feedback, or final answers. This setup provides dense token-level feedback without relying on a separate external model, but creates a fundamental asymmetry: the teacher may rely on view-specific information that the student cannot access at inference time. Moreover, the best type of privileged information is often task-dependent, making it difficult to choose a single teacher view. In this work, we address both these challenges jointly by introducing AVSD (Adaptive-View Self-Distillation), a novel method of self-distillation with multiple privileged-information views, which reconstructs token-level supervision by separating stable cross-view consensus from view-specific residual signals. AVSD identifies the consensus signal shared across views, which provides a reliable update direction, and then selectively adds the view-specific residual signal to adjust the update magnitude when it both aligns with the consensus direction and remains proportionate to the consensus signal. Experiments on math competition benchmarks (AIME24, AIME25, and HMMT25) show that AVSD consistently outperforms both single-view self-distillation baselines and GRPO, achieving average Avg@8 gains of 3.1% and 2.2% over the strongest baselines on Qwen3-8B and Qwen3-4B, respectively. Moreover, on code-generation benchmarks (Codeforces, LiveCodeBench v6) using Qwen3-8B, AVSD outperforms the single-view self-distillation baseline by 2.4% on average.