Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability

作者: Haotian Wang, Han Zhao, Shuaiting Chen, Xiaoyu Tian, Sitong Zhao, Yunjie Ji, Yiping Peng, Xiangang Li

分类: cs.CL

发布日期: 2025-04-13

💡 一句话要点

利用推理模型答案提升非推理模型能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理模型 非推理模型 监督微调 知识蒸馏

📋 核心要点

大型语言模型在推理能力上表现出色，但计算成本高昂，限制了其在资源受限场景下的应用。
该论文提出利用推理模型生成的高质量答案，通过监督微调的方式提升非推理模型的性能。
实验结果表明，该方法在多个基准测试中均能有效提升非推理模型的性能，具有广泛的应用潜力。

📝 摘要（中文）

近年来，DeepSeek-R1和OpenAI-o1等大型语言模型（LLMs）的快速发展，展示了测试时扩展的显著有效性，在各种基准测试中取得了显著的性能提升。这些先进的模型利用深思熟虑的“思考”步骤来系统地提高答案质量。在本文中，我们提出利用这些推理密集型模型生成的高质量输出来改进计算需求较低的非推理模型。我们探索并比较了利用推理模型产生的答案来训练和改进非推理模型的方法。通过在已建立的基准上进行简单的监督微调（SFT）实验，我们证明了在各种基准上的一致改进，突出了这种方法在提高模型直接回答问题的能力方面的潜力。

🔬 方法详解

问题定义：现有的大型语言模型虽然在推理任务上表现出色，但其高昂的计算成本限制了它们在资源受限环境中的部署。另一方面，计算成本较低的非推理模型在复杂问题上的表现往往不尽如人意，缺乏高质量的推理能力。因此，如何提升非推理模型在复杂问题上的回答能力，同时保持较低的计算成本，是一个重要的研究问题。

核心思路：该论文的核心思路是利用推理模型生成的高质量答案作为训练数据，通过监督学习的方式来提升非推理模型的性能。具体来说，就是将推理模型视为“教师”，非推理模型视为“学生”，通过模仿学习的方式，让学生模型学习教师模型的推理能力。这样，即使在推理过程中不进行显式的推理步骤，学生模型也能输出高质量的答案。

技术框架：该论文的技术框架主要包括两个阶段：首先，使用推理模型（如DeepSeek-R1或OpenAI-o1）对给定的问题生成答案，这些答案被认为是高质量的“黄金标准”。然后，使用这些高质量的答案作为训练数据，对非推理模型进行监督微调（SFT）。在微调过程中，非推理模型学习将输入问题映射到推理模型生成的答案。

关键创新：该论文的关键创新在于提出了一种简单有效的利用推理模型知识来提升非推理模型性能的方法。与传统的知识蒸馏方法相比，该方法不需要复杂的蒸馏过程，只需要简单的监督微调即可实现性能提升。此外，该方法也避免了直接对非推理模型进行复杂的推理结构设计，降低了模型设计的难度。

关键设计：该论文的关键设计在于使用监督微调（SFT）作为主要的训练方法。具体来说，就是将推理模型生成的答案作为标签，使用交叉熵损失函数来训练非推理模型。论文中没有提及具体的参数设置或网络结构细节，但强调了使用高质量的推理模型答案作为训练数据的重要性。

🖼️ 关键图片

📊 实验亮点

该论文通过在多个基准测试上进行实验，证明了该方法的有效性。实验结果表明，通过简单的监督微调，非推理模型在各种基准测试中均取得了显著的性能提升。具体的性能数据和提升幅度在论文中没有明确给出，但强调了在不同基准测试上的一致性改进。

🎯 应用场景

该研究成果可广泛应用于各种需要快速响应但对计算资源有限制的场景，例如移动设备上的智能助手、边缘计算环境下的问答系统等。通过提升非推理模型的性能，可以降低对高性能计算设备的需求，从而降低部署成本，并提高用户体验。此外，该方法还可以用于提升模型的鲁棒性和泛化能力。

📄 摘要（原文）

Recent advancements in large language models (LLMs), such as DeepSeek-R1 and OpenAI-o1, have demonstrated the significant effectiveness of test-time scaling, achieving substantial performance gains across various benchmarks. These advanced models utilize deliberate "thinking" steps to systematically enhance answer quality. In this paper, we propose leveraging these high-quality outputs generated by reasoning-intensive models to improve less computationally demanding, non-reasoning models. We explore and compare methodologies for utilizing the answers produced by reasoning models to train and improve non-reasoning models. Through straightforward Supervised Fine-Tuning (SFT) experiments on established benchmarks, we demonstrate consistent improvements across various benchmarks, underscoring the potential of this approach for advancing the ability of models to answer questions directly.

Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理