Reasoning Scaffolding: Distilling the Flow of Thought from LLMs
作者: Xiangyu Wen, Junhua Huang, Zeju Li, Min Li, Jianyuan Zhong, Zhijian Xu, Mingxuan Yuan, Yongxiang Huang, Qiang Xu
分类: cs.AI
发布日期: 2025-09-28 (更新: 2025-10-01)
💡 一句话要点
提出推理支架(Reasoning Scaffolding)框架,提升小模型推理能力和逻辑一致性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推理蒸馏 大型语言模型 小型语言模型 语义信号 多任务学习
📋 核心要点
- 现有行为克隆方法在从LLM中蒸馏推理能力时,仅模仿表面文本模式,缺乏逻辑鲁棒性。
- 论文提出Reasoning Scaffolding框架,将推理过程抽象为离散语义信号序列,作为学生模型的支架。
- 实验表明,该方法在推理准确性和逻辑一致性方面显著优于现有蒸馏方法,提升了小模型的推理能力。
📝 摘要(中文)
从大型语言模型(LLM)中提炼推理能力的主流方法——从文本推导中进行行为克隆——存在根本性局限。它教导小型语言模型(SLM)模仿表面模式,而不是潜在的算法思维结构,导致逻辑鲁棒性的严重缺乏。我们认为,蒸馏应该直接转移这种算法结构,而不是克隆文本。我们引入了推理支架(Reasoning Scaffolding),该框架将推理重新定义为一个结构化的生成过程。我们的方法首先将教师模型的思维过程抽象为一系列离散的、可解释的语义信号(例如,对比、添加),这些信号充当支架。然后,通过多任务目标训练学生模型,使其既能(1)预测下一个语义信号,预测推理流程,又能(2)生成与该信号相对应的步骤,并以该信号为条件。这种多任务方案充当了一个强大的正则化器,迫使学生内化连贯推理的计算模式。在一套具有挑战性的推理基准上,我们的方法在准确性和逻辑一致性方面都显著优于最先进的蒸馏方法,为创建真正具有推理能力的小型模型(而不仅仅是流利的模仿者)提供了一条途径。
🔬 方法详解
问题定义:现有方法,特别是基于行为克隆的蒸馏方法,在将大型语言模型的推理能力迁移到小型语言模型时,存在逻辑鲁棒性不足的问题。小型模型倾向于模仿表面文本模式,而无法真正理解和应用底层的推理逻辑,导致在复杂推理任务中表现不佳。
核心思路:论文的核心思路是将推理过程解构为一系列离散的、可解释的语义信号,这些信号代表了推理的步骤和逻辑关系。这些信号构成了一个“推理支架”,引导学生模型逐步进行推理,从而使其能够学习到更深层次的推理结构,而不仅仅是表面文本。
技术框架:Reasoning Scaffolding框架包含两个主要阶段:1) 教师模型推理过程的抽象:将教师模型的推理过程分解为一系列语义信号,例如“对比”、“添加”等,这些信号描述了每个推理步骤的逻辑关系。2) 学生模型的多任务训练:学生模型需要同时完成两个任务:预测下一个语义信号(推理流程预测)和生成与该信号对应的推理步骤(条件生成)。
关键创新:该方法最重要的创新在于将推理过程显式地建模为一系列语义信号,并利用这些信号作为支架来引导学生模型的学习。与传统的行为克隆方法相比,该方法能够更好地传递推理的底层结构,提高学生模型的逻辑鲁棒性。
关键设计:具体的技术细节包括:语义信号的定义和选择(需要根据具体的推理任务进行设计),多任务损失函数的设计(平衡推理流程预测和条件生成两个任务),以及学生模型的网络结构(需要能够处理离散的语义信号并生成相应的推理步骤)。论文中可能还涉及一些超参数的调整和优化,以获得最佳的性能。
📊 实验亮点
实验结果表明,Reasoning Scaffolding方法在多个具有挑战性的推理基准测试中,显著优于现有的蒸馏方法。在准确性和逻辑一致性方面均取得了显著提升,表明该方法能够有效地将大型语言模型的推理能力迁移到小型模型中,并提高其逻辑鲁棒性。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的场景,例如智能问答、知识图谱推理、代码生成等。通过将大型语言模型的推理能力蒸馏到小型模型中,可以降低计算成本,提高部署效率,并为资源受限的设备提供更强大的智能服务。未来,该方法有望推动小型语言模型在实际应用中的广泛普及。
📄 摘要(原文)
The prevailing approach to distilling reasoning from Large Language Models (LLMs)-behavioral cloning from textual rationales-is fundamentally limited. It teaches Small Language Models (SLMs) to mimic surface-level patterns rather than the underlying algorithmic structure of thought, resulting in a critical lack of logical robustness. We argue that instead of cloning text, distillation should transfer this algorithmic structure directly. We introduce Reasoning Scaffolding}, a framework that reframes reasoning as a structured generation process. Our method first abstracts the teacher's thought process into a sequence of discrete, interpretable semantic signals (e.g., Contrast, Addition) that act as a scaffold. The student model is then trained via a multi-task objective to both (1)predict the next semantic signal, anticipating the reasoning flow, and (2)generate the corresponding step, conditioned on that signal. This multi-task scheme acts as a powerful regularizer, compelling the student to internalize the computational patterns of coherent reasoning. On a suite of challenging reasoning benchmarks, our method significantly outperforms state-of-the-art distillation in both accuracy and logical consistency, providing a path towards creating smaller models that are genuine reasoners, not just fluent mimics.