Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning

作者: Hongbin Zhang, Chaozheng Wang, Kehai Chen, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang

分类: cs.LG, cs.AI

发布日期: 2026-05-21

备注: Under Review

💡 一句话要点

提出方向自适应自蒸馏(DASD)，提升LLM在数学推理中的探索能力与准确性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 自蒸馏 数学推理 方向自适应 不确定性建模

📋 核心要点

现有On-policy自蒸馏方法在复杂推理中表现不佳，因为它抑制了预测的不确定性，不利于探索和假设修正。
论文提出方向自适应自蒸馏(DASD)，根据token熵值动态调整教师监督方向，平衡探索与执行。
实验表明，DASD在数学推理基准上优于现有方法，并在探索能力、推理健康和泛化能力方面有所提升。

📝 摘要（中文）

在策略自蒸馏(OPSD)是一种新兴的LLM后训练范式，模型以自身作为教师：在参考轨迹或提示等特权信息的条件下，同一策略对其自身的rollout提供密集的token级别监督。然而，最近的研究表明，OPSD通过抑制预测不确定性来降低复杂推理能力，而预测不确定性支持探索和假设修正。我们的token级别分析表明，这种失败源于对具有不同不确定性级别的token应用统一方向的教师监督：对特权自教师的顺从抑制了高熵时的探索，而偏离教师则降低了低熵时的步进准确性。因此，我们提出了方向自适应自蒸馏(DASD)，它将特权自蒸馏从统一的教师模仿重新定义为熵路由的方向监督：高熵token被推离特权教师以保持探索，而低熵token被拉向教师以稳定步进执行。在六个数学推理基准测试中，DASD在强大的RLVR和自蒸馏基线上实现了最佳的宏平均Avg@16。Pass@$k$、推理健康和泛化分析表明，这些平均收益来自于在不牺牲步进执行的情况下保持探索。

🔬 方法详解

问题定义：现有On-policy自蒸馏(OPSD)方法在训练大型语言模型(LLM)时，虽然利用模型自身作为教师进行知识蒸馏，但存在一个关键问题：它会抑制模型在推理过程中的预测不确定性。这种不确定性对于复杂的推理任务至关重要，因为它允许模型进行探索、尝试不同的假设，并在必要时进行修正。现有方法采用统一的教师监督方向，忽略了不同token的不确定性差异，导致推理性能下降。

核心思路：论文的核心思想是根据token的不确定性（熵值）自适应地调整教师监督的方向。对于高熵（不确定性高）的token，应该鼓励模型进行探索，避免过度拟合教师的输出；而对于低熵（不确定性低）的token，则应该加强对教师输出的模仿，以保证推理的准确性。这种方向自适应的监督方式旨在平衡探索和执行，从而提升LLM的推理能力。

技术框架：DASD的核心在于根据token的熵值动态调整损失函数。整体流程如下：首先，模型生成自身的推理轨迹，并利用特权信息（如参考轨迹或提示）作为教师信号。然后，计算每个token的熵值，并根据熵值确定教师监督的方向。对于高熵token，损失函数会鼓励模型偏离教师的输出；对于低熵token，损失函数会鼓励模型接近教师的输出。最后，利用调整后的损失函数对模型进行训练。

关键创新：DASD最重要的创新点在于提出了方向自适应的自蒸馏策略。与传统的自蒸馏方法不同，DASD不再采用统一的教师监督方向，而是根据token的不确定性动态调整监督方向。这种自适应的策略能够更好地平衡探索和执行，从而提升LLM的推理能力。

关键设计：DASD的关键设计包括：1) 使用交叉熵损失函数作为基础损失函数；2) 使用token的熵值作为衡量不确定性的指标；3) 设计一个基于熵值的权重函数，用于调整损失函数中教师信号的强度和方向。具体来说，权重函数可以将高熵token的损失函数权重设置为负值，从而鼓励模型偏离教师的输出；将低熵token的损失函数权重设置为正值，从而鼓励模型接近教师的输出。权重函数的具体形式可以根据实际情况进行调整。

🖼️ 关键图片

📊 实验亮点

DASD在六个数学推理基准测试中取得了显著的性能提升，在宏平均Avg@16指标上优于现有的RLVR和自蒸馏基线。Pass@$k$、推理健康和泛化分析表明，DASD在保持探索能力的同时，没有牺牲步进执行的准确性，从而实现了整体性能的提升。具体提升幅度未知，原文未提供具体数值。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的LLM应用场景，例如数学问题求解、代码生成、知识图谱推理等。通过提升LLM的推理能力，可以提高这些应用场景的性能和用户体验。此外，该方法还可以推广到其他类型的自蒸馏任务中，例如图像分类、目标检测等。

📄 摘要（原文）

On-policy self-distillation (OPSD) is an emerging LLM post-training paradigm in which the model serves as its own teacher: conditioned on privileged information such as a reference trace or hint, the same policy provides dense token-level supervision on its own rollouts. However, recent studies show that OPSD degrades complex reasoning by suppressing predictive uncertainty, which supports exploration and hypothesis revision. Our token-level analysis shows that this failure arises from applying a uniform direction of teacher supervision across tokens with different uncertainty levels: conformity to the privileged self-teacher suppresses exploration at high entropy, while deviation from the teacher degrades step accuracy at low entropy. Accordingly, we propose \textbf{Direction-Adaptive Self-Distillation} (\textbf{DASD}), which reframes privileged self-distillation from uniform teacher imitation into entropy-routed directional supervision: high-entropy tokens are pushed away from the privileged teacher to preserve exploration, while low-entropy tokens are pulled toward the teacher to stabilize step-level execution. Across six mathematical reasoning benchmarks, DASD achieves the best macro Avg@16 over strong RLVR and self-distillation baselines. Pass@$k$, reasoning-health, and generalization analyses show that these average gains come from preserving exploration without sacrificing step-level execution.

Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理