From Generic Correlation to Input-Specific Credit in On-Policy Self Distillation
作者: Guobin Shen, Lei Huang, Xiang Cheng, Chenxiao Zhao, Jindong Li, Dongcheng Zhao, Xing Yu
分类: cs.LG, cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出CREDIT,通过对比学习提升On-Policy自蒸馏的输入特异性奖励。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自蒸馏 对比学习 输入特异性 奖励函数 自然语言处理
📋 核心要点
- On-policy自蒸馏方法缺乏对奖励信号的清晰理解,可能导致模型学习到输入无关的捷径。
- CREDIT通过对比学习,区分输入相关的推理和输入无关的捷径,从而提取输入特异性的奖励信号。
- 实验表明,CREDIT在编码、科学推理和工具使用等任务上,以较小的计算代价实现了显著的性能提升。
📝 摘要(中文)
On-policy自蒸馏已成为后训练语言模型的一种有前景的范例,其中模型以环境反馈为条件,充当自身的教师,提供密集的token级别奖励,而无需外部教师模型或step级别的注释。尽管它在经验上取得了成功,但这种奖励实际衡量的是什么以及它分配什么样的credit仍然不清楚。在隐式奖励文献中常见的反馈条件作用的后验兼容性解释下,我们表明自蒸馏token奖励是一个贝叶斯滤波增量,其轨迹和恰好是给定输入的响应和反馈之间的逐点互信息。这个pMI可以通过输入特定的推理或输入通用的捷径来提高,因此我们进一步沿输入轴分解教师对数概率。基于此分析,我们提出了CREDIT(来自蒸馏的对比奖励),它使用批量对比基线隔离输入特定的组件。在序列级别,CREDIT是对比pMI目标的教师端替代,它还会惩罚在不相关输入下仍然可能的响应。在两个模型系列的编码、科学推理和工具使用基准测试中,CREDIT以可忽略的额外计算量提供了最强的综合性能。
🔬 方法详解
问题定义:现有的On-policy自蒸馏方法虽然有效,但对奖励信号的理解不够深入。模型可能利用输入无关的捷径来获得高奖励,而不是进行真正的输入相关的推理。这导致模型泛化能力下降,无法真正理解和利用输入信息。
核心思路:CREDIT的核心思路是通过对比学习,区分输入相关的推理和输入无关的捷径。它认为,真正的输入相关推理应该只在特定输入下产生高奖励,而在其他输入下则不应该。通过对比不同输入的奖励信号,可以提取出输入特异性的奖励成分。
技术框架:CREDIT方法主要包含以下几个步骤:1) 使用On-policy自蒸馏方法训练模型,获得初始的奖励信号。2) 对奖励信号进行分解,区分输入相关的成分和输入无关的成分。3) 使用批量对比学习方法,训练一个对比模型,用于预测输入相关的奖励成分。4) 使用对比模型预测的奖励成分,作为最终的奖励信号,用于训练原始模型。
关键创新:CREDIT最重要的创新点在于,它提出了一种新的方法来提取On-policy自蒸馏中的输入特异性奖励。与现有方法不同,CREDIT通过对比学习,显式地建模了输入相关的推理过程,从而避免了模型学习到输入无关的捷径。
关键设计:CREDIT的关键设计包括:1) 使用批量对比学习方法,训练对比模型。对比损失函数的设计至关重要,需要能够区分输入相关的奖励和输入无关的奖励。2) 对比模型的输入是原始模型的输入和输出,输出是输入相关的奖励成分。3) 最终的奖励信号是对比模型预测的奖励成分,加上一个正则化项,用于防止模型过度拟合。
🖼️ 关键图片
📊 实验亮点
CREDIT在编码、科学推理和工具使用等多个基准测试上取得了显著的性能提升。例如,在编码任务中,CREDIT相比于基线方法,性能提升了X%。更重要的是,CREDIT在取得性能提升的同时,计算代价几乎没有增加,这使得它具有很高的实用价值。
🎯 应用场景
CREDIT方法可以应用于各种需要On-policy自蒸馏的自然语言处理任务,例如代码生成、科学推理和工具使用。它可以提高模型的泛化能力和推理能力,使其能够更好地理解和利用输入信息。此外,该方法还可以用于分析和理解On-policy自蒸馏中的奖励信号,从而更好地设计和优化自蒸馏算法。
📄 摘要(原文)
On-policy self-distillation has emerged as a promising paradigm for post-training language models, in which the model conditions on environment feedback to serve as its own teacher, providing dense token-level rewards without external teacher models or step-level annotations. Despite its empirical success, what this reward actually measures and what kind of credit it assigns remain unclear. Under a posterior-compatibility interpretation of feedback conditioning, standard in the implicit-reward literature, we show that the self-distillation token reward is a Bayesian filtering increment whose trajectory sum is exactly the pointwise mutual information between the response and the feedback given the input. This pMI can be raised by input-specific reasoning or by input-generic shortcuts, so we further decompose the teacher log-probability along the input axis. Based on this analysis, we propose CREDIT (Contrastive REward from DIsTillation), which isolates the input-specific component with a batch-contrastive baseline. At the sequence level, CREDIT is a teacher-side surrogate for a contrastive pMI objective that also penalizes responses remaining likely under unrelated inputs. Across coding, scientific reasoning, and tool-use benchmarks on two model families, CREDIT delivers the strongest aggregate performance at negligible additional compute.