Post Reasoning: Improving the Performance of Non-Thinking Models at No Cost

📄 arXiv: 2605.06165v1 📥 PDF

作者: Richmond Sin Jing Xuan, Rishabh Bhardwaj, Soujanya Poria

分类: cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出Post-Reasoning方法,通过后置推理机制提升非思维链模型性能且零推理成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 指令微调 推理优化 计算效率 思维链 模型性能提升

📋 核心要点

  1. 现有思维链(CoT)方法在推理过程中产生大量中间Token,导致推理延迟增加及运营成本上升,且在部分任务中冗余的推理过程反而会干扰模型输出。
  2. 本文提出Post-Reasoning方法,通过指令引导模型先输出最终答案再进行推理验证,从而在保持零额外推理成本的前提下,利用后置解释提升模型准确性。
  3. 实验表明,该方法在117个基准设置中表现优异,平均性能提升17.37%,且通过监督微调可将推理能力内化,进一步提升模型在各类复杂任务中的表现。

📝 摘要(中文)

随着大语言模型(LLM)的广泛应用,中间推理轨迹带来的Token消耗显著增加了推理延迟与运营成本。研究表明,许多实际任务并不需要显式的思维链,甚至过度的推理反而会降低模型性能。本文提出了“后置推理”(Post-Reasoning)方法,通过引导指令微调模型在生成最终答案后再进行解释。该设计使得模型无需额外的推理延迟或Token成本即可获得最终答案,同时通过简单的指令增强提升了性能。我们在13个模型、4个模型家族及9个推理与知识密集型基准(如GSM8K、GPQA、MMLU-Pro等)的117个设置中进行了评估。结果显示,Post-Reasoning在88.19%的设置中提升了性能,平均相对提升达17.37%。此外,提出的监督后置推理微调进一步将提升覆盖率提高至91.11%,证明了该能力可通过训练有效内化。

🔬 方法详解

问题定义:当前LLM推理范式(如CoT)强制模型在输出答案前进行长链条推理,这不仅增加了推理延迟和计算成本,且对于许多任务而言,显式推理过程往往是多余的,甚至会因注意力分散导致性能下降。

核心思路:论文提出将推理过程置于答案生成之后(Post-Reasoning)。其核心逻辑是:通过指令引导模型先给出最终结论,再进行事后解释。这种设计利用了模型在生成答案后的“反思”潜力,同时确保了用户获取答案的即时性。

技术框架:该方法包含两个阶段:一是基于Prompt的后置推理,通过特定的指令模板引导模型调整输出顺序;二是监督后置推理微调(Supervised Post-Reason Tuning),通过构建包含“答案+后置解释”的数据集,对模型进行微调,使其内化这种输出模式。

关键创新:最大的创新在于打破了“推理必须先于答案”的思维定势。通过改变输出顺序,实现了推理性能提升与推理成本(Latency/Token)的解耦,为非思维链模型提供了一种低成本的性能优化路径。

关键设计:在微调阶段,研究者通过指令增强构建训练数据,强制模型学习在输出答案后紧跟推理逻辑。这种设计不仅优化了模型的直接回答能力,还通过监督学习强化了模型对答案正确性的自我验证能力,从而在不增加推理开销的情况下提升了准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验覆盖117个模型-基准设置,Post-Reasoning在88.19%的场景中实现了性能提升,平均相对提升达17.37%。通过监督后置推理微调,性能提升覆盖率进一步提升至91.11%,且较Prompt基线平均提升8.01%,证明了该方法在提升模型直接回答能力方面的显著有效性。

🎯 应用场景

该方法适用于对推理延迟敏感、计算资源受限的工业级LLM部署场景,如实时问答系统、移动端AI助手及高频API调用服务。它为在不增加推理成本的前提下提升模型在复杂逻辑任务(如数学推理、科学问答)中的表现提供了通用方案,具有极高的商业落地价值。

📄 摘要(原文)

As the widespread adoption of Large Language Models (LLMs) accelerates, token consumption from intermediate reasoning traces increasingly contributes to inference latency and operational cost. Recent studies suggest that many real-world tasks require little to no explicit reasoning, with additional reasoning sometimes even degrading performance. In this work, we propose \textbf{Post-Reasoning}, a simple yet effective approach that improves instruction-tuned models by conditioning them to justify their answers after generating the final response. By design, it enables the final answer to be obtained without additional latency or token cost, while still improving performance through simple instruction augmentation. We evaluate Post-Reasoning across (117) model--benchmark settings spanning (13) open and proprietary models, (4) model families, and (9) diverse reasoning and knowledge-intensive benchmarks, including AMC, HMMT, GSM8K, GPQA, MMLU-Pro, and BIG-Bench Hard. Post-Reasoning improves performance in over (88.19\%) of evaluated settings, achieving a mean relative improvements of (17.37\%). Furthermore, we propose supervised post-reason tuning, which further improves performance in over (91.11\%) of evaluated settings, and exceeds the prompt-based post-reasoning baseline by an average of (8.01\%), demonstrating that post-reasoning can be effectively internalized through training. Ultimately, Post-Reasoning establishes a new performance ceiling for direct-answer capabilities.