Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

📄 arXiv: 2603.09117v1 📥 PDF

作者: Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun

分类: cs.LG

发布日期: 2026-03-10

备注: 9 pages, 8 figures


💡 一句话要点

提出DCPO框架,解耦推理与置信度,提升可验证奖励强化学习的校准性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 校准 可验证奖励 置信度 梯度冲突 解耦优化

📋 核心要点

  1. RLVR提升LLM推理能力,但模型在错误答案上过度自信,校准性能退化。
  2. DCPO框架解耦推理和校准目标,避免梯度冲突,提升模型校准性能。
  3. 实验表明DCPO在保持准确率的同时,显著提升校准性能,缓解过度自信问题。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)显著增强了大型语言模型(LLM)的推理能力,但同时也带来了严重的校准退化问题,即模型在错误答案上过度自信。以往的研究致力于将校准目标直接融入到现有的优化目标中。然而,我们的理论分析表明,最大化策略准确性和最小化校准误差之间存在根本的梯度冲突。基于这一洞察,我们提出了DCPO,一个简单而有效的框架,系统地解耦了推理和校准目标。大量的实验表明,我们的DCPO不仅保持了与GRPO相当的准确性,而且实现了最佳的校准性能,并大大缓解了过度自信的问题。我们的研究为更可靠的LLM部署提供了有价值的见解和实用的解决方案。

🔬 方法详解

问题定义:论文旨在解决基于可验证奖励的强化学习(RLVR)在提升大型语言模型(LLM)推理能力时出现的校准退化问题。具体而言,模型在给出错误答案时表现出过高的置信度,导致可靠性下降。现有方法尝试直接将校准目标融入优化过程,但忽略了策略准确性和校准误差之间的梯度冲突,效果不佳。

核心思路:论文的核心思路是将推理(策略准确性)和校准(置信度校准)的目标解耦。通过分别优化这两个目标,避免梯度冲突,从而在保持推理能力的同时,提升模型的校准性能。这种解耦的思想允许模型更灵活地学习,避免了直接融合目标可能导致的次优解。

技术框架:DCPO框架包含两个主要阶段:1) 推理阶段:使用RLVR训练模型,最大化可验证奖励,提升策略准确性。2) 校准阶段:使用单独的校准目标,调整模型的置信度输出,使其与实际准确性相匹配。这两个阶段可以交替进行,也可以先进行推理阶段,再进行校准阶段。框架的关键在于避免在同一优化过程中同时优化推理和校准目标。

关键创新:论文最重要的技术创新在于发现了策略准确性和校准误差之间的梯度冲突,并提出了通过解耦推理和校准目标来解决这一问题的DCPO框架。与现有方法直接融合校准目标不同,DCPO通过分别优化这两个目标,避免了梯度冲突,从而实现了更好的校准性能。

关键设计:校准阶段可以使用多种校准方法,例如温度缩放、等渗回归等。论文中可能使用了特定的校准方法,并对其参数进行了优化。此外,推理阶段的奖励函数设计、策略梯度算法的选择等也会影响最终的性能。具体的损失函数和网络结构细节需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DCPO在实验中不仅保持了与GRPO相当的准确性,而且在校准性能上取得了显著提升,缓解了过度自信的问题。具体的性能数据和对比基线需要在论文中查找,但总体而言,DCPO在校准指标上优于现有方法,证明了解耦推理和校准目标的有效性。

🎯 应用场景

该研究成果可应用于各种需要可靠LLM输出的场景,例如:医疗诊断、金融分析、法律咨询等。通过提升LLM的校准性能,可以减少模型在关键决策中的错误,提高系统的整体可靠性和安全性。未来,该方法可以推广到其他类型的强化学习任务中,提升模型的泛化能力和鲁棒性。

📄 摘要(原文)

Reinforcement Learning from Verifiable Rewards (RLVR) significantly enhances large language models (LLMs) reasoning but severely suffers from calibration degeneration, where models become excessively over-confident in incorrect answers. Previous studies devote to directly incorporating calibration objective into existing optimization target. However, our theoretical analysis demonstrates that there exists a fundamental gradient conflict between the optimization for maximizing policy accuracy and minimizing calibration error. Building on this insight, we propose DCPO, a simple yet effective framework that systematically decouples reasoning and calibration objectives. Extensive experiments demonstrate that our DCPO not only preserves accuracy on par with GRPO but also achieves the best calibration performance and substantially mitigates the over-confidence issue. Our study provides valuable insights and practical solution for more reliable LLM deployment.