DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

📄 arXiv: 2605.28421v1 📥 PDF

作者: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Yixin Cao

分类: cs.AI

发布日期: 2026-05-27

备注: 17 pages, 6 figures


💡 一句话要点

DenoiseRL:通过从噪声前缀中恢复,引导推理模型提升性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 噪声恢复 自我纠正

📋 核心要点

  1. 现有强化学习方法依赖强监督或人工标注数据集,限制了大型语言模型推理能力的可扩展提升。
  2. DenoiseRL通过从弱模型的错误推理轨迹中学习,将错误转化为改进机会,无需外部监督。
  3. 实验表明,DenoiseRL在推理任务上优于现有强化学习方法,并能促进模型自我纠正行为。

📝 摘要(中文)

本文提出了一种名为DenoiseRL的强化学习框架,旨在提升大型语言模型的推理能力。该框架不依赖于更强的教师模型或精心设计的困难数据集,而是通过面向恢复的优化来利用弱模型的失败案例。DenoiseRL直接从不正确的推理轨迹中学习,将其转化为改进的机会,从而使训练更具可扩展性,并减少对外部资源的依赖。这种方法产生了更丰富和更多样化的学习信号,提高了从不完善模型行为中进行探索的效率。实验结果表明,DenoiseRL在数学和通用推理基准测试中始终优于强大的on-policy强化学习基线,并随着训练难度的增加,促进了更强的自我纠正行为,为提高大型语言模型的推理能力提供了一种有效且可扩展的替代途径。

🔬 方法详解

问题定义:现有基于强化学习的语言模型推理方法,通常依赖于更强大的教师模型或精心策划的困难数据集进行训练。这限制了模型推理能力提升的可扩展性,并且需要大量的外部资源和人工干预。论文旨在解决如何利用弱模型的失败案例,在没有强监督的情况下,提升大型语言模型的推理能力。

核心思路:DenoiseRL的核心思想是将模型推理过程中的错误轨迹视为学习机会,通过优化模型从这些错误中恢复的能力来提升整体推理性能。模型不是简单地模仿正确的推理过程,而是学习如何识别和纠正自身的错误。这种方法能够产生更丰富和多样化的学习信号,提高探索效率。

技术框架:DenoiseRL框架主要包含以下几个阶段:1) 模型生成推理轨迹;2) 检测推理轨迹中的错误;3) 将错误轨迹转化为恢复任务;4) 使用强化学习算法优化模型在恢复任务上的表现。具体来说,模型首先尝试解决推理问题,生成一条推理轨迹。然后,一个错误检测模块(例如,基于规则或基于模型的验证器)识别轨迹中的错误步骤。接下来,框架将包含错误步骤的轨迹转化为一个恢复任务,目标是让模型从错误状态恢复到正确的推理路径。最后,使用强化学习算法(例如,策略梯度方法)优化模型在恢复任务上的表现,从而提高其纠错能力。

关键创新:DenoiseRL的关键创新在于其利用弱模型的失败案例进行学习,而不是依赖于强监督或人工标注数据。这种方法使得训练更具可扩展性,并减少了对外部资源的依赖。此外,DenoiseRL通过优化模型从错误中恢复的能力,提高了模型的鲁棒性和泛化能力。

关键设计:DenoiseRL的关键设计包括:1) 错误检测模块的设计,需要能够准确地识别推理轨迹中的错误步骤;2) 恢复任务的构建方式,需要能够有效地引导模型从错误状态恢复到正确的推理路径;3) 强化学习算法的选择和参数调整,需要能够有效地优化模型在恢复任务上的表现。论文中具体使用了策略梯度方法进行优化,并设计了相应的奖励函数,鼓励模型纠正错误并完成推理任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DenoiseRL在数学和通用推理基准测试中取得了显著的性能提升。实验结果表明,DenoiseRL始终优于强大的on-policy强化学习基线。此外,随着训练难度的增加,DenoiseRL能够促进模型更强的自我纠正行为,表明其具有良好的可扩展性和鲁棒性。具体性能数据未知,但结论是DenoiseRL在多个推理任务上超越了现有基线方法。

🎯 应用场景

DenoiseRL具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理等。该方法可以降低对高质量训练数据的依赖,使得在资源有限的情况下也能训练出高性能的推理模型。此外,DenoiseRL还可以用于提高模型的鲁棒性和泛化能力,使其在面对噪声和不确定性时也能保持良好的性能。

📄 摘要(原文)

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.