ReasonBridge: Efficient Reasoning Transfer from Closed to Open-Source Language Models
作者: Ziqi Zhong, Xunzhu Tang
分类: cs.AI
发布日期: 2025-06-28
💡 一句话要点
ReasonBridge:通过高效推理迁移,提升开源语言模型的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 推理能力 开源语言模型 迁移学习 分层学习
📋 核心要点
- 闭源语言模型在复杂推理和精确指令跟随方面显著优于开源模型,这是一个亟待解决的问题。
- ReasonBridge通过分层知识蒸馏,将闭源模型的推理能力迁移到开源模型,并设计了稀疏适配器和测试时计算缩放机制。
- 实验表明,ReasonBridge能显著提升开源模型的推理能力,在基准测试中提升高达23%,并缩小了与闭源模型的差距。
📝 摘要(中文)
本文提出了ReasonBridge,一种通过新颖的分层知识蒸馏框架,将强大闭源模型的推理能力高效迁移到开源模型的方法。为此,作者构建了一个名为Reason1K的定制数据集,该数据集包含1000条精心策划的推理轨迹,强调难度、多样性和质量,这些轨迹通过结构化的多标准选择算法从多个领域过滤而来。该迁移学习方法包含:(1)捕获战略抽象和战术实现模式的分层蒸馏过程;(2)仅需0.3%额外可训练参数的稀疏推理聚焦适配器架构;(3)使用引导推理干预的测试时计算缩放机制。综合评估表明,ReasonBridge将开源模型在基准测试任务上的推理能力提高了高达23%,显著缩小了与闭源模型的差距。值得注意的是,增强后的Qwen2.5-14B在MATH500上优于Claude-Sonnet3.5,并在竞赛级别的AIME问题上与其性能相匹配。该方法有效地推广到不同的推理领域和模型架构,为指令跟随的推理增强建立了一种样本高效的方法。
🔬 方法详解
问题定义:现有开源语言模型在复杂推理和精确指令跟随任务上的性能与闭源模型存在显著差距。现有方法可能存在效率低、泛化性差等问题,难以充分利用闭源模型的知识来提升开源模型的推理能力。因此,如何高效地将闭源模型的推理能力迁移到开源模型,是本文要解决的核心问题。
核心思路:ReasonBridge的核心思路是通过分层知识蒸馏,将闭源模型的推理过程分解为战略抽象和战术实现两个层面,并分别进行学习。通过这种方式,开源模型可以更好地理解闭源模型的推理逻辑,从而提升自身的推理能力。同时,采用稀疏适配器架构和测试时计算缩放机制,进一步提高了模型的效率和性能。
技术框架:ReasonBridge的技术框架主要包含三个部分:1)Reason1K数据集的构建,该数据集包含1000条高质量的推理轨迹,覆盖多个领域;2)分层知识蒸馏过程,包括战略抽象和战术实现两个阶段;3)稀疏推理聚焦适配器架构,用于高效地学习蒸馏知识。在测试阶段,采用计算缩放机制,根据需要调整计算资源,以进一步提高性能。
关键创新:ReasonBridge的关键创新在于其分层知识蒸馏方法,该方法能够同时捕获战略抽象和战术实现模式,从而更全面地学习闭源模型的推理能力。此外,稀疏推理聚焦适配器架构和测试时计算缩放机制也提高了模型的效率和性能。与现有方法相比,ReasonBridge更加高效、泛化性更强。
关键设计:Reason1K数据集的构建采用了多标准选择算法,确保数据的难度、多样性和质量。分层知识蒸馏过程采用了不同的损失函数,分别用于战略抽象和战术实现阶段。稀疏推理聚焦适配器架构采用了低秩分解等技术,减少了参数量。测试时计算缩放机制根据推理的复杂程度动态调整计算资源。
🖼️ 关键图片
📊 实验亮点
ReasonBridge在基准测试任务上取得了显著的性能提升,开源模型推理能力提升高达23%,显著缩小了与闭源模型的差距。增强后的Qwen2.5-14B在MATH500上优于Claude-Sonnet3.5,并在竞赛级别的AIME问题上与其性能相匹配。这些结果表明,ReasonBridge是一种有效的推理能力迁移方法,可以显著提升开源语言模型的性能。
🎯 应用场景
ReasonBridge具有广泛的应用前景,可用于提升各种开源语言模型在复杂推理任务中的性能,例如数学问题求解、代码生成、逻辑推理等。该方法可以帮助开发者更高效地构建高性能的开源语言模型,并促进人工智能技术的普及和发展。此外,该方法还可以应用于其他知识迁移场景,例如将知识从大型模型迁移到小型模型,或从一个领域迁移到另一个领域。
📄 摘要(原文)
Recent advancements in Large Language Models (LLMs) have revealed a significant performance gap between closed-source and open-source models, particularly in tasks requiring complex reasoning and precise instruction following. This paper introduces ReasonBridge, a methodology that efficiently transfers reasoning capabilities from powerful closed-source to open-source models through a novel hierarchical knowledge distillation framework. We develop a tailored dataset Reason1K with only 1,000 carefully curated reasoning traces emphasizing difficulty, diversity, and quality. These traces are filtered from across multiple domains using a structured multi-criteria selection algorithm. Our transfer learning approach incorporates: (1) a hierarchical distillation process capturing both strategic abstraction and tactical implementation patterns, (2) a sparse reasoning-focused adapter architecture requiring only 0.3% additional trainable parameters, and (3) a test-time compute scaling mechanism using guided inference interventions. Comprehensive evaluations demonstrate that ReasonBridge improves reasoning capabilities in open-source models by up to 23% on benchmark tasks, significantly narrowing the gap with closed-source models. Notably, the enhanced Qwen2.5-14B outperforms Claude-Sonnet3.5 on MATH500 and matches its performance on competition-level AIME problems. Our methodology generalizes effectively across diverse reasoning domains and model architectures, establishing a sample-efficient approach to reasoning enhancement for instruction following.