Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning
作者: Hongbin Zhang, Chaozheng Wang, Kehai Chen, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang
分类: cs.LG, cs.AI
发布日期: 2026-05-21
备注: Under Review
💡 一句话要点
提出方向自适应自蒸馏(DASD),提升LLM在数学推理中的探索能力与准确性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大型语言模型 自蒸馏 数学推理 方向自适应 不确定性建模
📋 核心要点
- 现有On-policy自蒸馏方法在复杂推理中表现不佳,因为它抑制了预测的不确定性,不利于探索和假设修正。
- 论文提出方向自适应自蒸馏(DASD),根据token熵值动态调整教师监督方向,平衡探索与执行。
- 实验表明,DASD在数学推理基准上优于现有方法,并在探索能力、推理健康和泛化能力方面有所提升。
📝 摘要(中文)
在策略自蒸馏(OPSD)是一种新兴的LLM后训练范式,模型以自身作为教师:在参考轨迹或提示等特权信息的条件下,同一策略对其自身的rollout提供密集的token级别监督。然而,最近的研究表明,OPSD通过抑制预测不确定性来降低复杂推理能力,而预测不确定性支持探索和假设修正。我们的token级别分析表明,这种失败源于对具有不同不确定性级别的token应用统一方向的教师监督:对特权自教师的顺从抑制了高熵时的探索,而偏离教师则降低了低熵时的步进准确性。因此,我们提出了方向自适应自蒸馏(DASD),它将特权自蒸馏从统一的教师模仿重新定义为熵路由的方向监督:高熵token被推离特权教师以保持探索,而低熵token被拉向教师以稳定步进执行。在六个数学推理基准测试中,DASD在强大的RLVR和自蒸馏基线上实现了最佳的宏平均Avg@16。Pass@$k$、推理健康和泛化分析表明,这些平均收益来自于在不牺牲步进执行的情况下保持探索。
🔬 方法详解
问题定义:现有On-policy自蒸馏(OPSD)方法在训练大型语言模型(LLM)时,虽然利用模型自身作为教师进行知识蒸馏,但存在一个关键问题:它会抑制模型在推理过程中的预测不确定性。这种不确定性对于复杂的推理任务至关重要,因为它允许模型进行探索、尝试不同的假设,并在必要时进行修正。现有方法采用统一的教师监督方向,忽略了不同token的不确定性差异,导致推理性能下降。
核心思路:论文的核心思想是根据token的不确定性(熵值)自适应地调整教师监督的方向。对于高熵(不确定性高)的token,应该鼓励模型进行探索,避免过度拟合教师的输出;而对于低熵(不确定性低)的token,则应该加强对教师输出的模仿,以保证推理的准确性。这种方向自适应的监督方式旨在平衡探索和执行,从而提升LLM的推理能力。
技术框架:DASD的核心在于根据token的熵值动态调整损失函数。整体流程如下:首先,模型生成自身的推理轨迹,并利用特权信息(如参考轨迹或提示)作为教师信号。然后,计算每个token的熵值,并根据熵值确定教师监督的方向。对于高熵token,损失函数会鼓励模型偏离教师的输出;对于低熵token,损失函数会鼓励模型接近教师的输出。最后,利用调整后的损失函数对模型进行训练。
关键创新:DASD最重要的创新点在于提出了方向自适应的自蒸馏策略。与传统的自蒸馏方法不同,DASD不再采用统一的教师监督方向,而是根据token的不确定性动态调整监督方向。这种自适应的策略能够更好地平衡探索和执行,从而提升LLM的推理能力。
关键设计:DASD的关键设计包括:1) 使用交叉熵损失函数作为基础损失函数;2) 使用token的熵值作为衡量不确定性的指标;3) 设计一个基于熵值的权重函数,用于调整损失函数中教师信号的强度和方向。具体来说,权重函数可以将高熵token的损失函数权重设置为负值,从而鼓励模型偏离教师的输出;将低熵token的损失函数权重设置为正值,从而鼓励模型接近教师的输出。权重函数的具体形式可以根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
DASD在六个数学推理基准测试中取得了显著的性能提升,在宏平均Avg@16指标上优于现有的RLVR和自蒸馏基线。Pass@$k$、推理健康和泛化分析表明,DASD在保持探索能力的同时,没有牺牲步进执行的准确性,从而实现了整体性能的提升。具体提升幅度未知,原文未提供具体数值。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的LLM应用场景,例如数学问题求解、代码生成、知识图谱推理等。通过提升LLM的推理能力,可以提高这些应用场景的性能和用户体验。此外,该方法还可以推广到其他类型的自蒸馏任务中,例如图像分类、目标检测等。
📄 摘要(原文)
On-policy self-distillation (OPSD) is an emerging LLM post-training paradigm in which the model serves as its own teacher: conditioned on privileged information such as a reference trace or hint, the same policy provides dense token-level supervision on its own rollouts. However, recent studies show that OPSD degrades complex reasoning by suppressing predictive uncertainty, which supports exploration and hypothesis revision. Our token-level analysis shows that this failure arises from applying a uniform direction of teacher supervision across tokens with different uncertainty levels: conformity to the privileged self-teacher suppresses exploration at high entropy, while deviation from the teacher degrades step accuracy at low entropy. Accordingly, we propose \textbf{Direction-Adaptive Self-Distillation} (\textbf{DASD}), which reframes privileged self-distillation from uniform teacher imitation into entropy-routed directional supervision: high-entropy tokens are pushed away from the privileged teacher to preserve exploration, while low-entropy tokens are pulled toward the teacher to stabilize step-level execution. Across six mathematical reasoning benchmarks, DASD achieves the best macro Avg@16 over strong RLVR and self-distillation baselines. Pass@$k$, reasoning-health, and generalization analyses show that these average gains come from preserving exploration without sacrificing step-level execution.