Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought
作者: Muhammed Emrullah Ildiz, Halil Alperen Gozeten, Ege Onur Taga, Samet Oymak
分类: cs.LG, cs.AI
发布日期: 2026-04-20
备注: 24 pages
💡 一句话要点
提出校准强化学习算法CAL-GRPO,解决多步CoT推理中的梯度偏差问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 链式思考 强化学习 梯度校准 多步推理 奖励函数 无偏估计
📋 核心要点
- 现有CoT模型在解决复杂问题时依赖长推理链,但如何有效利用每次尝试的反馈信号仍是挑战。
- 论文提出CAL-GRPO算法,通过校准每次尝试的奖励权重,避免梯度偏差,提升强化学习训练效果。
- 实验表明,CAL-GRPO在合成和真实数据集上均优于传统GRPO和朴素加权方法,验证了其有效性。
📝 摘要(中文)
本文研究了长链式思考(CoT)场景,模型通过K次连续尝试解决复杂问题,每次尝试都基于前一次的反馈进行改进。模型接收硬验证器的反馈,并利用强化学习方法优化每次尝试的奖励。本文关注优化Verification@K奖励(模型在第K次尝试前成功),发现直接根据尝试的成功/失败结果加权会导致有偏梯度。因此,本文提出校准尝试级别(CAL)GRPO,设计了一种加权策略,在保持小方差的同时获得无偏梯度。理论分析揭示了每次尝试的奖励如何影响训练和最终的Verification@K性能。在合成和真实数据上的实验、基线比较和消融研究验证了本文的理论,并证明了CAL-GRPO相对于vanilla GRPO以及朴素加权方法的优势。
🔬 方法详解
问题定义:本文旨在解决多步链式思考(Chain-of-Thought, CoT)推理中,如何有效利用每次尝试的反馈信息来优化模型性能的问题。现有方法,如直接使用成功/失败结果加权,会导致有偏梯度,影响强化学习的训练效果。这种偏差会使得模型难以学习到正确的策略,从而降低最终的推理准确率。
核心思路:论文的核心思路是通过校准每次尝试的奖励权重,来消除梯度偏差。具体来说,设计一种加权策略,使得强化学习算法能够获得无偏的梯度估计,从而更有效地学习到最优策略。这种校准机制能够更准确地反映每次尝试对最终结果的贡献,避免错误地强化或抑制某些行为。
技术框架:整体框架基于强化学习,模型在每次尝试后接收来自环境(验证器)的反馈(成功或失败)。框架包含以下主要阶段:1) 模型进行K次连续尝试,每次尝试生成一个CoT推理过程;2) 验证器对每次尝试的结果进行评估,给出二元反馈;3) CAL-GRPO算法根据反馈结果,校准每次尝试的奖励权重;4) 使用校准后的奖励权重更新模型参数。
关键创新:最重要的技术创新点是提出了校准尝试级别(CAL)GRPO算法,该算法通过精心设计的加权策略,实现了无偏的梯度估计。与现有方法的本质区别在于,CAL-GRPO能够消除由于直接使用成功/失败结果加权而产生的梯度偏差,从而更有效地训练模型。
关键设计:CAL-GRPO的关键设计在于如何计算每次尝试的校准权重。具体来说,论文推导了一个理论公式,该公式基于每次尝试的成功概率和失败概率,计算出一个校准因子。该校准因子用于调整每次尝试的奖励权重,从而保证梯度估计的无偏性。此外,论文还考虑了方差控制,以确保训练过程的稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CAL-GRPO在合成数据集和真实数据集上均优于基线方法。在合成数据集上,CAL-GRPO能够更有效地学习到最优策略,并取得更高的Verification@K性能。在真实数据集上,CAL-GRPO相对于vanilla GRPO和朴素加权方法,取得了显著的性能提升,验证了其在实际应用中的有效性。具体的性能提升幅度取决于数据集和任务的复杂度,但总体而言,CAL-GRPO能够带来显著的改进。
🎯 应用场景
该研究成果可应用于需要多步推理和验证的各种场景,例如问答系统、代码生成、数学问题求解等。通过利用每次尝试的反馈信息,可以显著提高模型的推理能力和准确性,从而在实际应用中带来更高的价值。未来,该方法还可以扩展到更复杂的推理场景,例如涉及多模态信息的推理。
📄 摘要(原文)
State-of-the-art reasoning models utilize long chain-of-thought (CoT) to solve increasingly complex problems using more test-time computation. In this work, we explore a long CoT setting where the model makes up to K successive attempts at solving a problem, in which each attempt is allowed to build on earlier ones after the model receives a hard verifier feedback. This motivates RL methods that can harness per-attempt rewards by carefully weighting individual attempts. We study optimizing the Verification@K reward (the model succeeds by the K-th attempt) and show that naively weighing the attempts by their pass/fail results in biased gradients. We introduce Calibrated Attempt-Level (CAL) GRPO by devising a weighing strategy to obtain unbiased gradients while maintaining small variance. Our theory reveals how incorporating per-attempt rewards influence the training and the eventual Verification@K performance. Experiments, baselines, and ablations on synthetic and real data corroborate our theory and the benefits of CAL-GRPO over vanilla GRPO as well as naive weighting.