Self-rewarding correction for mathematical reasoning

作者: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang

分类: cs.AI, cs.LG

发布日期: 2025-02-26

💡 一句话要点

提出自奖励校正框架，提升LLM在数学推理中的自我纠错能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自奖励学习 自我纠错 数学推理 大型语言模型 强化学习

📋 核心要点

现有LLM推理依赖外部反馈，计算成本高，部署复杂，限制了其独立推理能力。
提出自奖励校正框架，模型在推理过程中自我评估并纠错，无需外部奖励模型。
实验表明，该方法在Llama-3和Qwen-2.5上表现优异，媲美外部奖励模型。

📝 摘要（中文）

本文研究了自奖励推理的大型语言模型（LLMs），该模型能够在推理时同步生成逐步推理过程并评估输出的正确性，而无需外部反馈。这种集成方法允许单个模型独立地指导其推理过程，为模型部署提供了计算优势。我们特别关注自校正这一代表性任务，其中模型自主地检测其响应中的错误，修改输出，并决定何时终止迭代改进循环。为此，我们提出了一个两阶段算法框架，仅使用自生成数据来构建自奖励推理模型。在第一阶段，我们采用顺序拒绝抽样来合成包含自奖励和自校正机制的长链式思维轨迹。在这些精心策划的数据上微调模型，使其能够学习自奖励和自校正的模式。在第二阶段，我们通过基于规则的信号进行强化学习，进一步增强模型评估响应准确性和改进输出的能力。使用Llama-3和Qwen-2.5进行的实验表明，我们的方法超越了固有的自我校正能力，并实现了与依赖外部奖励模型的系统相当的性能。

🔬 方法详解

问题定义：现有的大型语言模型在进行复杂的数学推理时，往往需要外部的奖励模型来评估和指导推理过程，这增加了计算成本和部署难度。模型自身缺乏独立判断和纠正错误的能力，限制了其在实际应用中的灵活性和效率。因此，如何让LLM在没有外部反馈的情况下，自主地进行推理、评估和纠错，是一个重要的研究问题。

核心思路：本文的核心思路是构建一个自奖励的推理模型，该模型能够同时生成推理步骤并评估其输出的正确性。通过让模型学习自我评估和自我纠正的模式，使其能够在推理过程中自主地发现错误并进行修正，从而提高推理的准确性和效率。这种自奖励机制避免了对外部奖励模型的依赖，降低了计算成本和部署难度。

技术框架：该方法采用一个两阶段的算法框架。第一阶段，使用顺序拒绝抽样（sequential rejection sampling）生成包含自奖励和自校正机制的长链式思维轨迹。具体来说，模型生成推理步骤，并自我评估其正确性，如果评估结果不满意，则拒绝该步骤并重新生成。通过这种方式，可以生成高质量的训练数据，包含模型自我评估和自我纠正的模式。第二阶段，使用强化学习（Reinforcement Learning）进一步提升模型评估响应准确性和改进输出的能力。使用基于规则的信号作为奖励，引导模型学习更有效的自我纠错策略。

关键创新：该论文最重要的技术创新点在于提出了一个完全基于自生成数据的自奖励校正框架。与传统的依赖外部奖励模型的方法不同，该方法仅使用模型自身生成的数据进行训练，避免了对外部资源的依赖，降低了计算成本和部署难度。此外，该方法通过顺序拒绝抽样和强化学习，有效地提升了模型的自我评估和自我纠错能力。

关键设计：在顺序拒绝抽样阶段，需要设计合适的拒绝策略，例如设定一个阈值来判断推理步骤的质量，并根据评估结果决定是否拒绝该步骤。在强化学习阶段，需要设计合适的奖励函数，例如根据推理结果的正确性给予奖励，并根据纠错的次数给予惩罚。此外，还需要选择合适的强化学习算法，例如PPO（Proximal Policy Optimization）等，来训练模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Llama-3和Qwen-2.5模型上显著提升了数学推理的准确性，超越了模型固有的自我纠错能力，并达到了与依赖外部奖励模型的系统相当的性能水平。具体性能数据和提升幅度在论文中进行了详细展示，证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的场景，如数学问题求解、代码生成、知识图谱推理等。通过提升LLM的自我纠错能力，可以减少人工干预，提高自动化水平，降低运营成本。未来，该技术有望应用于智能客服、自动化报告生成等领域，实现更高效、更智能的AI应用。

📄 摘要（原文）

We study self-rewarding reasoning large language models (LLMs), which can simultaneously generate step-by-step reasoning and evaluate the correctness of their outputs during the inference time-without external feedback. This integrated approach allows a single model to independently guide its reasoning process, offering computational advantages for model deployment. We particularly focus on the representative task of self-correction, where models autonomously detect errors in their responses, revise outputs, and decide when to terminate iterative refinement loops. To enable this, we propose a two-staged algorithmic framework for constructing self-rewarding reasoning models using only self-generated data. In the first stage, we employ sequential rejection sampling to synthesize long chain-of-thought trajectories that incorporate both self-rewarding and self-correction mechanisms. Fine-tuning models on these curated data allows them to learn the patterns of self-rewarding and self-correction. In the second stage, we further enhance the models' ability to assess response accuracy and refine outputs through reinforcement learning with rule-based signals. Experiments with Llama-3 and Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction capabilities and achieves performance comparable to systems that rely on external reward models.

Self-rewarding correction for mathematical reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理