ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

📄 arXiv: 2605.00380v1 📥 PDF

作者: Zihan Lin, Xiaohan Wang, Jie Cao, Jiajun Chai, Li Wang, Xiaodong Lu, Wei Lin, Ran He, Guojun Yin

分类: cs.LG, cs.CL

发布日期: 2026-05-01

备注: Accepted to ICML 2026. Preprint version

🔗 代码/项目: GITHUB


💡 一句话要点

ResRL:通过负样本投影残差强化学习提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 负样本学习 残差学习

📋 核心要点

  1. 现有RLVR方法过度激励正向奖励,导致LLM生成多样性不足,影响推理能力。
  2. ResRL解耦正负样本的语义分布,通过负样本投影残差来调节负梯度,提升推理能力。
  3. 实验表明,ResRL在数学、代码等多个任务上优于现有方法,尤其在数学推理上提升显著。

📝 摘要(中文)

本文提出了一种负样本投影残差强化学习(ResRL)方法,旨在提升大型语言模型(LLM)的推理能力。现有基于可验证奖励的强化学习(RLVR)方法虽然有效,但由于过度激励正向奖励,导致生成多样性受限。负样本强化(NSR)通过提升负样本的惩罚来缓解这个问题,但可能抑制正负样本响应之间共享的语义分布。ResRL通过解耦正负样本响应中相似的语义分布来解决此问题。理论上,我们将惰性似然位移(LLD)与负-正梯度干扰联系起来,并推导出一个单次前向代理,该代理限制了表示对齐的上界,以指导保守的优势重加权。ResRL随后将负token的隐藏表示投影到基于SVD的低秩正子空间上,并使用投影残差来调节负梯度,从而在保留多样性的同时提高推理能力。在涵盖数学、代码、Agent任务和函数调用的十二个基准测试中,ResRL优于强大的基线。值得注意的是,ResRL在数学推理方面,Avg@16指标上超过NSR 9.4%,Pass@128指标上超过7.0%。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)方法在提升LLM推理能力时,存在生成多样性受限的问题。负样本强化(NSR)虽然尝试通过增加负样本的惩罚来解决这个问题,但可能会抑制正负样本响应之间共享的语义信息,导致模型学习效率降低。

核心思路:ResRL的核心思路是解耦正负样本响应中相似的语义分布,避免负样本梯度更新对正样本语义信息的干扰。通过将负样本的表示投影到正样本的子空间,并利用投影残差来调节负梯度,从而在保留多样性的同时提高推理能力。

技术框架:ResRL的整体框架包括以下几个主要步骤:1) 使用LLM生成正负样本响应;2) 计算正负样本的奖励;3) 将负样本的隐藏层表示投影到基于SVD的正样本低秩子空间;4) 利用投影残差调节负梯度,更新LLM参数。

关键创新:ResRL的关键创新在于负样本投影残差的使用。通过将负样本的表示投影到正样本的子空间,可以有效地分离正负样本之间的相似语义信息,避免负梯度更新对正样本语义信息的干扰。同时,使用投影残差可以保留负样本中与正样本不同的信息,从而提高模型的泛化能力。

关键设计:ResRL的关键设计包括:1) 使用SVD分解正样本的隐藏层表示,得到低秩子空间;2) 将负样本的隐藏层表示投影到该子空间,计算投影残差;3) 使用投影残差来调节负梯度的大小,避免过度惩罚负样本。此外,论文还提出了一个单次前向代理,用于限制表示对齐的上界,以指导保守的优势重加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ResRL在涵盖数学、代码、Agent任务和函数调用的十二个基准测试中,平均性能优于现有方法。特别是在数学推理任务上,ResRL在Avg@16指标上超过NSR 9.4%,在Pass@128指标上超过7.0%,表明ResRL在提升LLM推理能力方面具有显著优势。

🎯 应用场景

ResRL具有广泛的应用前景,可以应用于各种需要LLM进行推理的任务,例如数学问题求解、代码生成、智能Agent任务和函数调用等。该方法可以提高LLM的推理准确性和生成多样性,从而提升LLM在实际应用中的性能和用户体验。此外,ResRL的思想也可以推广到其他强化学习任务中,用于解决正负样本不平衡的问题。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) enhances reasoning of Large Language Models (LLMs) but usually exhibits limited generation diversity due to the over-incentivization of positive rewards. Although methods like Negative Sample Reinforcement (NSR) mitigate this issue by upweighting penalty from negative samples, they may suppress the semantic distributions shared between positive and negative responses. To boost reasoning ability without losing diversity, this paper proposes negative sample projection Residual Reinforcement Learning (ResRL) that decouples similar semantic distributions among positive and negative responses. We theoretically link Lazy Likelihood Displacement (LLD) to negative-positive head-gradient interference and derive a single-forward proxy that upper-bounds representation alignment to guide conservative advantage reweighting. ResRL then projects negative-token hidden representations onto an SVD-based low-rank positive subspace and uses projection residuals to modulate negative gradients, improving reasoning while preserving diversity and outperforming strong baselines on average across twelve benchmarks spanning Mathematics, Code, Agent Tasks, and Function Calling. Notably, ResRL surpasses NSR on mathematical reasoning by 9.4\% in Avg@16 and 7.0\% in Pass@128. Code is available at https://github.com/1229095296/ResRL.git.