Structural Rationale Distillation via Reasoning Space Compression

📄 arXiv: 2605.07139v1 📥 PDF

作者: Jialin Yang, Jiankun Wang, Jiajun Wu, Henry Leung, Jiayu Zhou, Steve Drew

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-08


💡 一句话要点

提出推理路径压缩蒸馏(D-RPC)框架,通过结构化推理路径库提升小模型蒸馏效率与一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 大语言模型 推理路径压缩 模型轻量化 思维链 PAC-Bayes分析

📋 核心要点

  1. 现有蒸馏方法中,教师模型对相似问题生成的推理路径高度不一致,导致学生模型难以学习到稳定的逻辑模式,引入了大量噪声监督。
  2. D-RPC通过构建动态推理路径库,强制教师模型在生成推理过程时遵循预定义的结构化路径,从而实现推理策略的标准化与可重用性。
  3. 实验表明,D-RPC在多个数学与常识推理任务中超越了传统思维链蒸馏,在提升模型性能的同时显著降低了推理所需的Token消耗。

📝 摘要(中文)

在将大语言模型(LLM)的推理能力蒸馏至小模型时,教师模型针对相似问题生成的推理过程往往在结构和策略上存在巨大差异。这种不一致性为学生模型引入了难以内化的噪声监督。本文提出了推理路径压缩蒸馏(D-RPC)方法,通过约束教师模型遵循一个紧凑且动态维护的可重用高层推理路径库。对于每个训练问题,D-RPC检索最相关的路径并引导教师模型遵循该路径,从而在确保相似问题间推理一致性的同时,保持覆盖不同问题类型的多样性。通过PAC-Bayes分析,本文形式化了路径库大小与覆盖率之间的权衡,并确定了最优中间规模。在五个数学与常识推理基准测试中,D-RPC在性能上显著优于思维链蒸馏、自由形式生成及结构化监督等基线方法,且推理成本更低。

🔬 方法详解

问题定义:论文旨在解决大模型蒸馏过程中“推理策略不一致”的问题。现有方法生成的推理过程(Rationales)往往在结构上高度发散,导致学生模型在学习过程中面临高熵的监督信号,难以有效内化逻辑推理能力。

核心思路:引入“推理路径库”作为中间约束层。通过将推理过程抽象为高层路径,强制教师模型在处理相似问题时复用相同的逻辑结构,从而降低监督信号的熵,使学生模型能够更高效地捕捉核心推理模式。

技术框架:D-RPC包含路径库构建、路径检索与条件生成三个阶段。首先,从教师模型中提取并聚类生成高层推理路径;其次,在训练时根据输入问题检索最匹配的路径;最后,将该路径作为条件输入,引导教师模型生成结构化推理过程。

关键创新:核心创新在于将“推理路径”显式化为可检索的知识库。与传统的自由形式蒸馏不同,该方法通过路径压缩实现了逻辑的一致性,同时通过PAC-Bayes理论分析证明了路径库规模与泛化能力之间的最优平衡点。

关键设计:采用了动态维护的路径库机制,通过PAC-Bayes边界分析确定路径库的规模。损失函数设计上,结合了标准蒸馏损失与路径一致性约束,确保生成的推理过程既符合逻辑路径要求,又能准确回答问题。

📊 实验亮点

D-RPC在五个数学与常识推理基准测试中表现优异,全面超越了思维链蒸馏(CoT Distillation)、自由形式生成及结构化监督等基线。实验验证了PAC-Bayes分析得出的最优路径库规模,证明了该方法在提升推理准确率的同时,显著减少了生成过程中的Token冗余,实现了性能与效率的双重优化。

🎯 应用场景

该方法适用于资源受限场景下的模型轻量化部署,特别是在数学求解、逻辑推理及复杂常识问答等领域。通过提升蒸馏效率,它能帮助企业和研究机构以更低的算力成本,将大模型的复杂推理能力迁移至边缘设备或端侧模型,具有极高的工业应用价值。

📄 摘要(原文)

When distilling reasoning from large language models (LLMs) into smaller ones, teacher rationales for similar problems often vary wildly in structure and strategy. Like a chef who makes the same dish differently each time, this inconsistency burdens the student with noisy supervision that is hard to internalize. We propose Distillation through Reasoning Path Compression (D-RPC), which constrains the teacher to follow a compact, dynamically maintained bank of reusable high-level reasoning paths. For each training question, D-RPC retrieves the most relevant path and conditions the teacher to follow it, producing rationales that are consistent across similar problems yet diverse enough to cover different problem types. A PAC-Bayes analysis formalizes the resulting trade-off between bank size and coverage: smaller banks reduce supervision entropy but risk coverage gaps, and the generalization bound identifies an optimal intermediate size confirmed by our ablations. Across five math and commonsense reasoning benchmarks with two student models, D-RPC consistently outperforms chain-of-thought distillation, freeform rationale generation, direct distillation, and structured-supervision baselines, while using fewer tokens than template-heavy alternatives.