HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

作者: Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian

分类: cs.AI, cs.LG

发布日期: 2026-03-11

备注: 11 pages,5 figures

💡 一句话要点

提出HEAL框架，通过后见之明熵辅助学习提升推理蒸馏效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 推理蒸馏 知识蒸馏 后见之明学习 熵辅助学习 课程学习

📋 核心要点

现有推理蒸馏方法受限于拒绝抽样，易形成“教师天花板”，忽略了教师模型无法独立解决的复杂问题。
HEAL框架通过引导熵辅助修复、困惑度-不确定性比率估计和渐进式答案引导课程演化三个模块协同工作，提升推理能力。
实验结果表明，HEAL在多个基准测试中显著优于传统的SFT蒸馏和其他基线方法，提升了推理性能。

📝 摘要（中文）

将大型推理模型(LRM)的推理能力蒸馏到小型模型中通常受到拒绝抽样的限制。标准方法将教师模型视为静态过滤器，丢弃教师模型无法独立探索有效解决方案的复杂“极端情况”问题，从而为学生模型创建人为的“教师天花板”。本文提出了后见之明熵辅助学习(HEAL)，这是一个无需强化学习的框架，旨在弥合这种推理差距。HEAL借鉴了最近发展区(ZPD)的教育理论，协同了三个核心模块：(1)引导熵辅助修复(GEAR)，一种主动干预机制，通过熵动力学检测关键推理断点，并注入有针对性的后见之明提示来修复中断的轨迹；(2)困惑度-不确定性比率估计器(PURE)，一种严格的过滤协议，将真正的认知突破与虚假的捷径分离；(3)渐进式答案引导课程演化(PACE)，一种三阶段蒸馏策略，组织从基础对齐到前沿突破的训练。在多个基准上的大量实验表明，HEAL显著优于传统的SFT蒸馏和其他基线。

🔬 方法详解

问题定义：论文旨在解决将大型推理模型(LRM)的推理能力蒸馏到小型模型时，由于拒绝抽样导致的“教师天花板”问题。现有方法将教师模型视为静态过滤器，忽略了教师模型无法独立解决的复杂问题，限制了学生模型的学习上限。

核心思路：论文的核心思路是借鉴最近发展区(ZPD)的教育理论，通过主动干预和课程演化，帮助学生模型突破“教师天花板”。具体来说，通过检测推理过程中的断点，并提供后见之明的提示，引导学生模型学习解决复杂问题。同时，通过过滤虚假捷径，确保学生模型学习到真正的推理能力。

技术框架：HEAL框架包含三个主要模块：(1)引导熵辅助修复(GEAR)：通过熵动力学检测推理过程中的关键断点，并注入后见之明的提示来修复中断的轨迹。(2)困惑度-不确定性比率估计器(PURE)：用于过滤虚假的捷径，确保学生模型学习到真正的推理能力。(3)渐进式答案引导课程演化(PACE)：一种三阶段蒸馏策略，从基础对齐到前沿突破，逐步提升学生模型的推理能力。

关键创新：HEAL的关键创新在于其主动干预机制和课程演化策略。GEAR模块通过熵动力学检测推理断点并注入后见之明提示，突破了传统蒸馏方法的静态过滤限制。PURE模块则有效区分了认知突破和虚假捷径，保证了学习质量。PACE模块则提供了一个结构化的学习路径，引导学生模型逐步提升推理能力。

关键设计：GEAR模块使用熵的变化率来检测推理断点，当熵的变化率超过阈值时，认为发生了推理中断。PURE模块使用困惑度和不确定性比率来评估推理轨迹的质量，过滤掉困惑度低但置信度高的虚假捷径。PACE模块包含三个阶段：第一阶段进行基础对齐，第二阶段进行知识迁移，第三阶段进行能力突破。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HEAL框架在多个基准测试中显著优于传统的SFT蒸馏和其他基线方法。例如，在XXX数据集上，HEAL的性能提升了XX%，超过了SOTA方法XX%。这些结果表明，HEAL能够有效提升推理蒸馏的效果，突破“教师天花板”。

🎯 应用场景

HEAL框架可应用于各种需要推理能力的场景，例如问答系统、对话系统、代码生成等。通过将大型推理模型的知识和能力蒸馏到小型模型中，可以降低计算成本和部署难度，使推理能力更易于应用到资源受限的环境中。该研究对于推动人工智能在边缘设备和移动端的应用具有重要意义。

📄 摘要（原文）

Distilling reasoning capabilities from Large Reasoning Models (LRMs) into smaller models is typically constrained by the limitation of rejection sampling. Standard methods treat the teacher as a static filter, discarding complex "corner-case" problems where the teacher fails to explore valid solutions independently, thereby creating an artificial "Teacher Ceiling" for the student. In this work, we propose Hindsight Entropy-Assisted Learning (HEAL), an RL-free framework designed to bridge this reasoning gap. Drawing on the educational theory of the Zone of Proximal Development(ZPD), HEAL synergizes three core modules: (1) Guided Entropy-Assisted Repair (GEAR), an active intervention mechanism that detects critical reasoning breakpoints via entropy dynamics and injects targeted hindsight hints to repair broken trajectories; (2) Perplexity-Uncertainty Ratio Estimator (PURE), a rigorous filtering protocol that decouples genuine cognitive breakthroughs from spurious shortcuts; and (3) Progressive Answer-guided Curriculum Evolution (PACE), a three-stage distillation strategy that organizes training from foundational alignment to frontier breakthrough. Extensive experiments on multiple benchmarks demonstrate that HEAL significantly outperforms traditional SFT distillation and other baselines.

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理