Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought

作者: Muhammed Emrullah Ildiz, Halil Alperen Gozeten, Ege Onur Taga, Samet Oymak

分类: cs.LG, cs.AI

发布日期: 2026-04-20

备注: 24 pages

💡 一句话要点

提出校准强化学习算法CAL-GRPO，解决多步CoT推理中的梯度偏差问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 链式思考 强化学习 梯度校准 多步推理 奖励函数 无偏估计

📋 核心要点

现有CoT模型在解决复杂问题时依赖长推理链，但如何有效利用每次尝试的反馈信号仍是挑战。
论文提出CAL-GRPO算法，通过校准每次尝试的奖励权重，避免梯度偏差，提升强化学习训练效果。
实验表明，CAL-GRPO在合成和真实数据集上均优于传统GRPO和朴素加权方法，验证了其有效性。

📝 摘要（中文）

本文研究了长链式思考（CoT）场景，模型通过K次连续尝试解决复杂问题，每次尝试都基于前一次的反馈进行改进。模型接收硬验证器的反馈，并利用强化学习方法优化每次尝试的奖励。本文关注优化Verification@K奖励（模型在第K次尝试前成功），发现直接根据尝试的成功/失败结果加权会导致有偏梯度。因此，本文提出校准尝试级别（CAL）GRPO，设计了一种加权策略，在保持小方差的同时获得无偏梯度。理论分析揭示了每次尝试的奖励如何影响训练和最终的Verification@K性能。在合成和真实数据上的实验、基线比较和消融研究验证了本文的理论，并证明了CAL-GRPO相对于vanilla GRPO以及朴素加权方法的优势。

🔬 方法详解

问题定义：本文旨在解决多步链式思考（Chain-of-Thought, CoT）推理中，如何有效利用每次尝试的反馈信息来优化模型性能的问题。现有方法，如直接使用成功/失败结果加权，会导致有偏梯度，影响强化学习的训练效果。这种偏差会使得模型难以学习到正确的策略，从而降低最终的推理准确率。

核心思路：论文的核心思路是通过校准每次尝试的奖励权重，来消除梯度偏差。具体来说，设计一种加权策略，使得强化学习算法能够获得无偏的梯度估计，从而更有效地学习到最优策略。这种校准机制能够更准确地反映每次尝试对最终结果的贡献，避免错误地强化或抑制某些行为。

技术框架：整体框架基于强化学习，模型在每次尝试后接收来自环境（验证器）的反馈（成功或失败）。框架包含以下主要阶段：1) 模型进行K次连续尝试，每次尝试生成一个CoT推理过程；2) 验证器对每次尝试的结果进行评估，给出二元反馈；3) CAL-GRPO算法根据反馈结果，校准每次尝试的奖励权重；4) 使用校准后的奖励权重更新模型参数。

关键创新：最重要的技术创新点是提出了校准尝试级别（CAL）GRPO算法，该算法通过精心设计的加权策略，实现了无偏的梯度估计。与现有方法的本质区别在于，CAL-GRPO能够消除由于直接使用成功/失败结果加权而产生的梯度偏差，从而更有效地训练模型。

关键设计：CAL-GRPO的关键设计在于如何计算每次尝试的校准权重。具体来说，论文推导了一个理论公式，该公式基于每次尝试的成功概率和失败概率，计算出一个校准因子。该校准因子用于调整每次尝试的奖励权重，从而保证梯度估计的无偏性。此外，论文还考虑了方差控制，以确保训练过程的稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CAL-GRPO在合成数据集和真实数据集上均优于基线方法。在合成数据集上，CAL-GRPO能够更有效地学习到最优策略，并取得更高的Verification@K性能。在真实数据集上，CAL-GRPO相对于vanilla GRPO和朴素加权方法，取得了显著的性能提升，验证了其在实际应用中的有效性。具体的性能提升幅度取决于数据集和任务的复杂度，但总体而言，CAL-GRPO能够带来显著的改进。

🎯 应用场景

该研究成果可应用于需要多步推理和验证的各种场景，例如问答系统、代码生成、数学问题求解等。通过利用每次尝试的反馈信息，可以显著提高模型的推理能力和准确性，从而在实际应用中带来更高的价值。未来，该方法还可以扩展到更复杂的推理场景，例如涉及多模态信息的推理。

📄 摘要（原文）

State-of-the-art reasoning models utilize long chain-of-thought (CoT) to solve increasingly complex problems using more test-time computation. In this work, we explore a long CoT setting where the model makes up to K successive attempts at solving a problem, in which each attempt is allowed to build on earlier ones after the model receives a hard verifier feedback. This motivates RL methods that can harness per-attempt rewards by carefully weighting individual attempts. We study optimizing the Verification@K reward (the model succeeds by the K-th attempt) and show that naively weighing the attempts by their pass/fail results in biased gradients. We introduce Calibrated Attempt-Level (CAL) GRPO by devising a weighing strategy to obtain unbiased gradients while maintaining small variance. Our theory reveals how incorporating per-attempt rewards influence the training and the eventual Verification@K performance. Experiments, baselines, and ablations on synthetic and real data corroborate our theory and the benefits of CAL-GRPO over vanilla GRPO as well as naive weighting.

Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理