Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

作者: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun

分类: cs.CL

发布日期: 2025-05-28 (更新: 2025-10-14)

🔗 代码/项目: GITHUB

💡 一句话要点

提出ORION框架，通过误差感知自反思增强长链推理蒸馏效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长链推理 知识蒸馏 自反思学习 误差感知 数学问题求解

📋 核心要点

现有方法在蒸馏长链推理能力时，忽略了学生模型的能力限制，导致推理轨迹利用率不高。
ORION框架通过误差感知自反思，改进教师CoTs，使其更贴合学生模型的能力。
实验表明，ORION在多个数学推理基准上性能提升超过2%，且CoTs更具连贯性和逻辑性。

📝 摘要（中文）

大型语言模型(LLMs)在数学问题解决任务中表现出强大的推理能力和卓越的性能。最近，从长形式的思维链(CoTs)中提炼推理能力已成为增强小型语言模型(SLMs)的一种有前景的方法。现有的研究通常将SLMs视为学生模型，并使用长形式的CoTs作为监督信号进行监督微调(SFT)，以转移推理能力。然而，这种长形式的CoT教师通常没有意识到学生模型的能力，这限制了所提供的推理轨迹的有效利用。为了克服这个限制，我们提出了误差感知自反思(ORION)框架，该框架通过误差感知反思过程来改进教师CoTs。ORION通过改进教师CoTs并结合学生模型自身的推理错误，使学生模型能够构建更定制化的教师CoTs。在多个数学推理基准上的实验表明，ORION始终比所有基线提高了2%以上的性能。进一步的分析表明，ORION构建的CoTs表现出更高的连贯性和逻辑一致性，从而为SFT提供了更有效的监督信号。所有代码可在https://github.com/NEUIR/ORION.git获取。

🔬 方法详解

问题定义：论文旨在解决现有长链思维（CoT）蒸馏方法中，教师模型（LLM）生成的CoT轨迹未充分考虑学生模型（SLM）能力的问题。现有方法直接使用LLM生成的CoT作为监督信号，但这些CoT可能包含SLM无法理解或复现的复杂推理步骤，导致蒸馏效果不佳。

核心思路：论文的核心思路是让学生模型参与到教师CoT的构建过程中，通过学生模型的误差反馈来指导教师CoT的改进。具体来说，学生模型尝试复现教师CoT，并识别出自身无法正确推理的步骤，然后利用这些误差信息来修正教师CoT，使其更符合学生模型的能力范围。

技术框架：ORION框架包含以下几个主要阶段： 1. 初始CoT生成：使用LLM生成初始的CoT推理轨迹。 2. 误差感知：学生模型尝试执行初始CoT，并记录下推理过程中出现的错误。 3. 自反思：基于学生模型的误差信息，对初始CoT进行修正，生成更适合学生模型的CoT。 4. 蒸馏训练：使用修正后的CoT作为监督信号，对学生模型进行微调。

关键创新：ORION的关键创新在于引入了误差感知的自反思机制，使得教师CoT的构建不再是单向的，而是考虑了学生模型的实际能力。这种方法能够生成更有效的监督信号，从而提高蒸馏效果。与现有方法相比，ORION能够更好地利用LLM的推理能力，同时避免了将学生模型无法理解的复杂推理步骤引入到训练过程中。

关键设计：论文中没有明确说明具体的参数设置、损失函数和网络结构等技术细节，这些信息可能在补充材料或代码中。但可以推测，误差感知模块可能需要设计合适的指标来衡量学生模型的推理误差，自反思模块可能需要使用某种策略来修改CoT，例如替换错误的推理步骤或简化推理过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ORION框架在多个数学推理基准上 consistently 提高了性能，相比于基线模型提升超过2%。这表明ORION能够有效地利用学生模型的误差信息来改进教师CoT，从而生成更有效的监督信号。实验还分析了ORION构建的CoTs，发现其具有更高的连贯性和逻辑一致性，进一步验证了ORION的有效性。

🎯 应用场景

ORION框架可应用于各种需要将大型语言模型的推理能力迁移到小型语言模型的场景，例如资源受限的设备、移动应用和边缘计算等。通过提高小型语言模型的推理能力，可以使其在这些场景中更好地完成复杂任务，例如数学问题求解、逻辑推理和知识问答等，从而提升用户体验和应用价值。

📄 摘要（原文）

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理