Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning

作者: Nathanaël Carraz Rakotonirina, Ren Pang, Neha Anna John, Michael Bohlke-Schneider, Momchil Hardalov

分类: cs.CL, cs.AI

发布日期: 2026-01-06

💡 一句话要点

提出多阶段训练方法，通过自适应长度惩罚提升LLM推理效率并减少“过度思考”。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 高效推理 思维链 强化学习 自适应长度惩罚 过度思考 多阶段训练

📋 核心要点

大型语言模型推理过程中存在“过度思考”问题，导致计算成本增加且性能下降。
提出一种多阶段训练方法，结合监督微调和强化学习，并引入自适应长度惩罚机制。
实验表明，该方法能显著减少响应长度，同时保持甚至提升模型推理准确率。

📝 摘要（中文）

大型语言模型（LLM）的推理能力通过增加测试时的计算量得到了显著提升，通常以思维链（CoT）的形式呈现。然而，CoT常常变得不必要地冗长，增加了计算成本，却没有实际的准确性提升，有时甚至会降低性能，这种现象被称为“过度思考”。我们提出了一种多阶段高效推理方法，该方法结合了监督式微调（通过拒绝采样或推理轨迹重构）和使用自适应长度惩罚的强化学习。我们引入了一个轻量级的奖励函数，该函数惩罚在第一个正确答案之后生成的token，但仅在有益时才鼓励自我验证。我们对七个不同的推理任务进行了全面的评估，分析了准确性与响应长度之间的权衡。我们的方法使8B模型的响应长度平均减少了28％，32B模型的响应长度平均减少了40％，而性能仅分别略微下降了1.6和2.5个百分点。尽管其概念简单，但与更复杂的state-of-the-art高效推理方法相比，它实现了卓越的权衡，在过度思考调整准确率曲线下面积（$ ext{AUC}_{ ext{OAA}}$）方面得分76.6，比基础模型高5分，比第二好的方法高2.5分。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在推理过程中出现的“过度思考”问题。现有方法，如简单地增加CoT长度，虽然能提升推理能力，但常常导致不必要的计算开销，甚至降低性能。痛点在于如何在保证准确率的前提下，减少推理过程中的冗余计算。

核心思路：论文的核心思路是通过多阶段训练，使模型学会自适应地控制推理过程的长度。具体来说，模型需要学会何时停止推理，避免生成不必要的token。通过引入自适应长度惩罚，鼓励模型在找到正确答案后及时停止，并在必要时进行自我验证。

技术框架：整体框架包含两个主要阶段：监督式微调和强化学习。在监督式微调阶段，使用拒绝采样或推理轨迹重构来优化模型的初始推理能力。在强化学习阶段，使用一个轻量级的奖励函数来训练模型，该函数惩罚在第一个正确答案之后生成的token，但鼓励有益的自我验证。整体流程是先通过监督学习获得初步推理能力，再通过强化学习进行优化，使其更高效。

关键创新：最重要的创新点在于引入了自适应长度惩罚机制。该机制能够根据模型的推理状态动态调整长度惩罚，从而鼓励模型在找到正确答案后及时停止，避免过度思考。与现有方法相比，该方法更加灵活和高效，能够更好地平衡准确率和计算成本。

关键设计：奖励函数的设计是关键。该奖励函数包含两部分：一部分是基于准确率的奖励，另一部分是基于长度的惩罚。长度惩罚是自适应的，当模型已经找到正确答案时，会增加长度惩罚，反之则减少。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在七个不同的推理任务上取得了显著的性能提升。对于8B模型，响应长度平均减少了28％，而性能仅下降了1.6个百分点。对于32B模型，响应长度平均减少了40％，而性能仅下降了2.5个百分点。在$ ext{AUC}_{ ext{OAA}}$指标上，该方法达到了76.6，比基础模型高5分，比第二好的方法高2.5分，证明了其优越的性能。

🎯 应用场景

该研究成果可应用于各种需要高效推理的场景，例如问答系统、对话系统、智能客服等。通过减少LLM的计算开销，可以降低部署成本，提高响应速度，并提升用户体验。未来，该方法有望推广到更广泛的自然语言处理任务中，例如文本摘要、机器翻译等。

📄 摘要（原文）

The reasoning capabilities of large language models (LLMs) have improved substantially through increased test-time computation, typically in the form of intermediate tokens known as chain-of-thought (CoT). However, CoT often becomes unnecessarily long, increasing computation cost without actual accuracy gains or sometimes even degrading performance, a phenomenon known as ``overthinking''. We propose a multi-stage efficient reasoning method that combines supervised fine-tuning -- via rejection sampling or reasoning trace reformatting -- with reinforcement learning using an adaptive length penalty. We introduce a lightweight reward function that penalizes tokens generated after the first correct answer but encouraging self-verification only when beneficial. We conduct a holistic evaluation across seven diverse reasoning tasks, analyzing the accuracy-response length trade-off. Our approach reduces response length by an average of 28\% for 8B models and 40\% for 32B models, while incurring only minor performance drops of 1.6 and 2.5 points, respectively. Despite its conceptual simplicity, it achieves a superior trade-off compared to more complex state-of-the-art efficient reasoning methods, scoring 76.6, in terms of the area under the Overthinking-Adjusted Accuracy curve ($\text{AUC}_{\text{OAA}}$) -- 5 points above the base model and 2.5 points above the second-best approach.

Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册