Boosting LLM Reasoning via Spontaneous Self-Correction
作者: Xutong Zhao, Tengyu Xu, Xuewei Wang, Zhengxing Chen, Di Jin, Liang Tan, Yen-Ting, Zishun Yu, Zhuokai Zhao, Yun He, Sinong Wang, Han Fang, Sarath Chandar, Chen Zhu
分类: cs.AI
发布日期: 2025-06-07
💡 一句话要点
提出SPOC,通过自发性自纠正提升LLM数学推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学推理 自纠正 强化学习 多智能体 合成数据 Llama-3.1
📋 核心要点
- 现有自纠正方法依赖额外提示和系统设计,无法在单次推理中进行实时自发纠正,效率较低。
- SPOC方法让LLM在单次推理中交错生成解题方案和验证,并根据验证结果动态终止生成,提升效率。
- 通过合成数据微调和在线强化学习,SPOC显著提升了Llama-3.1模型在数学推理基准上的性能。
📝 摘要(中文)
大型语言模型(LLM)在广泛的任务中表现出卓越的成功,但数学推理仍然是一个具有挑战性的领域。改进数学推理的方法之一是自纠正,它设计自改进循环,让模型纠正自己的错误。然而,现有的自纠正方法将纠正视为独立的生成后改进,依赖于额外的提示和系统设计来引发自纠正,而不是在单次传递中执行实时的、自发的自纠正。为了解决这个问题,我们提出SPOC,一种自发性自纠正方法,使LLM能够在单次推理传递中生成交错的解决方案和验证,并根据验证结果动态终止生成,从而有效地扩展推理时间计算。SPOC通过为同一模型分配双重角色——解决方案提出者和验证者——来考虑多智能体视角。我们采用一种简单而有效的方法来生成用于微调的合成数据,使模型能够开发自验证和多智能体协作的能力。我们通过在线强化学习进一步提高其解决方案提出和验证的准确性。在数学推理基准上的实验表明,SPOC显著提高了性能。值得注意的是,SPOC提高了Llama-3.1-8B和70B Instruct模型的准确性,在MATH500上分别实现了8.8%和11.6%的提升,在AMC23上分别实现了10.0%和20.0%的提升,在AIME24上分别实现了3.3%和6.7%的提升。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在数学推理任务中,现有自纠正方法效率低下的问题。现有方法通常将纠正步骤视为独立的后处理过程,需要额外的提示工程和系统设计,无法实现实时的、自发的错误纠正,导致推理效率降低。
核心思路:SPOC的核心思路是让LLM在单次推理过程中同时扮演解题者和验证者的角色,交错生成解题方案和验证结果,并根据验证结果动态决定是否继续生成。这种“边解边验”的模式能够更早地发现并纠正错误,从而提高推理效率和准确性。
技术框架:SPOC的技术框架主要包含三个阶段:1) 合成数据生成:生成包含解题方案和验证信息的合成数据,用于微调LLM,使其具备自验证能力。2) 模型微调:使用合成数据对LLM进行微调,使其能够同时生成解题方案和验证结果。3) 在线强化学习:使用强化学习进一步优化模型的解题和验证能力,使其能够更好地进行自纠正。
关键创新:SPOC的关键创新在于其自发性自纠正机制,它将解题和验证过程融合到单次推理中,避免了传统方法中额外的提示和后处理步骤。此外,SPOC还采用了多智能体视角,让同一个模型扮演不同的角色,从而更好地进行自纠正。
关键设计:SPOC的关键设计包括:1) 合成数据生成策略:设计有效的合成数据生成策略,以确保数据的质量和多样性。2) 奖励函数设计:设计合适的奖励函数,以引导强化学习过程,提高模型的解题和验证能力。3) 动态终止策略:设计动态终止策略,根据验证结果决定何时停止生成,以平衡推理时间和准确性。
🖼️ 关键图片
📊 实验亮点
SPOC在数学推理基准测试中取得了显著的性能提升。在MATH500数据集上,SPOC将Llama-3.1-8B和70B Instruct模型的准确率分别提高了8.8%和11.6%。在AMC23数据集上,分别提高了10.0%和20.0%。在AIME24数据集上,分别提高了3.3%和6.7%。实验结果表明,SPOC能够有效地提高LLM的数学推理能力。
🎯 应用场景
SPOC方法具有广泛的应用前景,可应用于各种需要复杂推理的任务,例如代码生成、科学发现、决策制定等。通过提高LLM的推理能力和效率,SPOC可以帮助人们更好地解决实际问题,并推动人工智能技术的发展。
📄 摘要(原文)
While large language models (LLMs) have demonstrated remarkable success on a broad range of tasks, math reasoning remains a challenging one. One of the approaches for improving math reasoning is self-correction, which designs self-improving loops to let the model correct its own mistakes. However, existing self-correction approaches treat corrections as standalone post-generation refinements, relying on extra prompt and system designs to elicit self-corrections, instead of performing real-time, spontaneous self-corrections in a single pass. To address this, we propose SPOC, a spontaneous self-correction approach that enables LLMs to generate interleaved solutions and verifications in a single inference pass, with generation dynamically terminated based on verification outcomes, thereby effectively scaling inference time compute. SPOC considers a multi-agent perspective by assigning dual roles -- solution proposer and verifier -- to the same model. We adopt a simple yet effective approach to generate synthetic data for fine-tuning, enabling the model to develop capabilities for self-verification and multi-agent collaboration. We further improve its solution proposal and verification accuracy through online reinforcement learning. Experiments on mathematical reasoning benchmarks show that SPOC significantly improves performance. Notably, SPOC boosts the accuracy of Llama-3.1-8B and 70B Instruct models, achieving gains of 8.8% and 11.6% on MATH500, 10.0% and 20.0% on AMC23, and 3.3% and 6.7% on AIME24, respectively.