Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
作者: Guobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-12
💡 一句话要点
提出AntiSD,通过反向自蒸馏提升语言模型在数学推理中的能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 反向自蒸馏 数学推理 语言模型 知识蒸馏 强化学习
📋 核心要点
- 传统自蒸馏在数学推理中表现不佳,原因是特权上下文导致教师模型对关键推理步骤的置信度降低。
- AntiSD通过最大化学生和教师模型的差异,逆转了传统自蒸馏的token置信度偏差问题。
- 实验表明,AntiSD在数学推理任务上,能显著提升模型准确率,并加速训练过程。
📝 摘要(中文)
本文提出了一种名为反向自蒸馏(AntiSD)的方法,旨在提升语言模型在数学推理任务中的能力。传统的自蒸馏方法,即让学生模型学习自身在特权上下文(如验证过的解或反馈)下的输出,在数学推理中表现不稳定。通过逐点互信息分析发现,这是因为特权上下文会过度增强教师模型对解中已有信息的置信度,同时降低对驱动多步搜索的token(如“Wait”、“Let”、“Maybe”)的置信度。AntiSD通过最大化学生模型和教师模型之间的差异来逆转这种趋势,从而产生有界的优势。此外,使用熵触发门来禁用该项,一旦教师模型的熵崩溃,就完成对默认自蒸馏的替代。在4B到30B参数的五个模型上进行的数学推理基准测试表明,AntiSD仅用GRPO基线2到10倍少的训练步骤就达到了其准确率,并且最终准确率提高了高达11.5个百分点。AntiSD为可扩展的自我改进开辟了一条道路,语言模型可以通过其训练信号来引导自身的推理能力。
🔬 方法详解
问题定义:现有自蒸馏方法在数学推理任务中表现不稳定,其根本原因是特权上下文(如已验证的解)会误导教师模型,使其过度关注解的结构性连接词和可验证的声明,而忽略了驱动多步推理的关键token,例如“Wait”、“Let”、“Maybe”等。这种偏差导致学生模型难以学习到正确的推理过程。
核心思路:论文的核心思路是反向自蒸馏(AntiSD),即不是让学生模型模仿教师模型,而是鼓励学生模型与教师模型产生差异。通过最大化学生模型和教师模型之间的KL散度,可以有效地抑制教师模型对结构性token的过度自信,并提升学生模型对推理token的关注。这样设计的目的是为了让学生模型能够更好地学习到推理过程中的关键步骤,从而提升整体的推理能力。
技术框架:AntiSD方法可以作为现有自蒸馏方法的替代品直接嵌入到训练流程中。其主要步骤包括:首先,使用特权上下文训练教师模型;然后,计算学生模型和教师模型之间的KL散度,并将其作为反向蒸馏损失;最后,使用熵触发门来动态地调整反向蒸馏损失的权重,当教师模型的熵较低时,停止反向蒸馏,以避免过度优化。
关键创新:AntiSD的关键创新在于它颠覆了传统的自蒸馏思想,不是让学生模型模仿教师模型,而是鼓励学生模型与教师模型产生差异。这种反向学习的方式能够有效地解决传统自蒸馏在数学推理任务中遇到的问题,提升模型对关键推理步骤的关注。
关键设计:AntiSD的关键设计包括:1) 使用KL散度作为反向蒸馏损失,以衡量学生模型和教师模型之间的差异;2) 使用熵触发门来动态地调整反向蒸馏损失的权重,当教师模型的熵较低时,停止反向蒸馏。熵触发门的具体实现方式是计算教师模型输出的熵,并将其与一个阈值进行比较,如果熵低于阈值,则将反向蒸馏损失的权重设置为0。
🖼️ 关键图片
📊 实验亮点
AntiSD在数学推理基准测试中表现出色,使用4B到30B参数的五个模型进行实验,结果表明,AntiSD仅用GRPO基线2到10倍少的训练步骤就达到了其准确率,并且最终准确率提高了高达11.5个百分点。这些结果表明,AntiSD是一种有效的提升语言模型推理能力的方法。
🎯 应用场景
AntiSD方法具有广泛的应用前景,可以应用于各种需要复杂推理能力的语言模型任务中,例如数学问题求解、代码生成、知识图谱推理等。通过提升模型的推理能力,可以使其更好地理解和解决复杂问题,从而提高其在实际应用中的价值。此外,AntiSD方法还可以促进语言模型的自我改进,使其能够通过自身的训练信号来不断提升推理能力。
📄 摘要(原文)
On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.