The Role of Feedback Alignment in Self-Distillation
作者: Semih Kara, Oğuzhan Ersoy
分类: cs.AI, cs.LG
发布日期: 2026-06-09
备注: Accepted to the ICML 2026 Workshop on RL from World Feedback (RLxF)
💡 一句话要点
提出自蒸馏中的反馈对齐方法以提升模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自蒸馏 反馈对齐 语言模型 推理过程 深度学习
📋 核心要点
- 现有自蒸馏方法在缺乏上下文时,模型性能的保持和提升仍然是一个挑战。
- 论文提出通过设计逐步对齐的反馈机制,使自蒸馏过程中的自教师与学生模型之间的输出分布更为一致。
- 实验结果显示,逐步对齐的批评方法在性能上超越了二元奖励和参考解条件,提升幅度分别为16.11和5.27点。
📝 摘要(中文)
本研究探讨了在自蒸馏过程中,如何通过设计有效的上下文反馈来提升语言模型的响应能力。自蒸馏旨在使模型在缺乏上下文时仍能保持性能提升。研究比较了三种反馈条件:二元奖励、参考解和逐步批评。结果表明,逐步对齐的批评方法在性能上显著优于其他方法,尤其是在针对推理失败的标记时,能够有效保留正确行为。这一发现强调了反馈与推理结构对自蒸馏效果的重要性。
🔬 方法详解
问题定义:本研究旨在解决自蒸馏过程中,模型在缺乏上下文时性能保持的不足。现有方法往往未能有效利用反馈信息,导致模型在没有上下文时表现不佳。
核心思路:论文提出通过设计逐步对齐的反馈机制,使得自教师在提供反馈时能够更好地与学生模型的推理过程相匹配,从而提升自蒸馏的效果。
技术框架:整体架构包括三个主要模块:学生模型、冻结的批评者和自教师。学生模型仅接收问题,而自教师则同时接收问题和上下文反馈。
关键创新:最重要的技术创新在于逐步对齐的批评方法,它能够针对推理失败的标记进行反馈,而不是对所有标记施加压力,从而保留了正确的推理过程。
关键设计:在实验中,采用了三种反馈设计:二元奖励、参考解和逐步批评。逐步批评的设计确保了反馈与学生模型的推理过程在结构上的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,逐步对齐的批评方法在性能上超越了二元奖励(提升16.11点)和参考解条件(提升5.27点),表明该方法在针对推理失败的标记时具有显著优势,能够有效提升模型的整体表现。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和教育技术等。通过优化自蒸馏过程,模型能够在缺乏上下文的情况下仍保持高效的推理能力,从而在实际应用中提供更为准确的响应。这一方法的成功实施可能会推动智能助手和自动化教育工具的发展。
📄 摘要(原文)
Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.