Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

📄 arXiv: 2605.06241v1 📥 PDF

作者: Ömer Faruk Akgül, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna

分类: cs.CL

发布日期: 2026-05-07


💡 一句话要点

提出ReasonMaxxer方法:通过稀疏策略选择替代强化学习以提升大模型推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 推理能力 稀疏策略选择 熵分析 对比学习 模型优化

📋 核心要点

  1. 现有RL方法在推理任务中并未习得新能力,本质上是对模型既有解空间的概率重分配,且优化过程计算开销巨大。
  2. 论文提出ReasonMaxxer,通过识别模型的高熵决策点,仅在关键位置进行稀疏的对比损失修正,无需在线生成与复杂RL循环。
  3. 实验表明,该方法在多个模型规模和基准测试中匹配或超越了全量RL性能,训练成本降低了约三个数量级。

📝 摘要(中文)

强化学习(RL)已成为提升大语言模型推理能力的标配,但证据表明RL并未赋予模型新策略,而是重新分配了模型既有解空间的概率质量。本文探讨了RL优化循环的必要性。通过对多个模型家族和RL算法的Token级分析,研究发现RL的有效性源于对高熵决策点(模型不确定分支处)的稀疏且可预测的修正。仅1%-3%的Token位置受到影响,且被提升的Token始终位于基座模型的前5个候选范围内。基于此,作者提出了ReasonMaxxer,这是一种无需RL的方法,仅在熵门控决策点应用对比损失。该方法在多个数学推理基准测试中表现优异,且训练成本降低了三个数量级。

🔬 方法详解

问题定义:现有大模型推理强化学习(RL)方法存在计算成本高昂、训练不稳定等问题。论文指出RL并未真正教会模型新策略,而是通过优化过程在模型已知的解空间中进行概率重分配,导致了计算资源的浪费。

核心思路:研究发现RL的有效性高度集中在极少数(1%-3%)的高熵Token位置,即模型在推理路径中面临不确定性的关键决策点。因此,无需完整的RL循环,仅需定位这些关键点并进行针对性修正即可实现性能提升。

技术框架:ReasonMaxxer摒弃了传统的在线RL生成流程。首先利用基座模型自身的熵值识别推理过程中的关键决策点;随后,利用少量(数百个)基座模型Rollout数据,在这些特定位置应用对比损失(Contrastive Loss)进行微调。

关键创新:将推理能力的提升从“能力习得”重构为“稀疏策略选择”。通过熵门控机制(Entropy-gated)精准定位干预位置,证明了推理优化可以转化为低维度的参数修正问题,而非全参数或大规模策略优化。

关键设计:该方法不依赖在线采样,通过对比损失函数直接优化模型在关键决策点对正确路径的偏好。由于仅干预极少数Token位置,该方法仅需分钟级的单GPU训练时间,且无需复杂的奖励模型训练或PPO算法支持。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReasonMaxxer在6个数学推理基准测试中表现出色,在多个模型规模下均能匹配甚至超越传统PPO等全量RL方法的性能。最显著的优势在于训练效率,相比传统RL方法,其训练成本降低了约三个数量级,仅需分钟级单GPU训练时间及数十个样本即可完成优化。

🎯 应用场景

该研究适用于资源受限场景下的模型推理能力增强,特别是在数学、逻辑推理等需要高精度输出的领域。其极低的训练成本和高效的实现方式,使得中小型企业或研究团队能够在不依赖大规模算力的情况下,快速优化预训练模型的推理表现,具有极高的工业应用价值。

📄 摘要(原文)

Reinforcement learning has become the standard for improving reasoning in large language models, yet evidence increasingly suggests that RL does not teach new strategies; it redistributes probability mass over solutions the base model already contains. In this work, we ask: if RL merely steers the model toward paths it already knows, is the RL optimization loop itself necessary? Through token-level analysis across multiple model families and RL algorithms, we find that RL's beneficial footprint is a sparse, predictable correction concentrated at high-entropy decision points where the model is uncertain which branch to take. Only 1--3\% of token positions are affected, the promoted token always lies within the base model's top-5 alternatives, and targeted corrections at those few positions causally recover a large fraction of RL's accuracy gain, while random corrections fail. The base model's own entropy identifies these positions without any RL-trained model, and the entire correction is low-dimensional, representable in a tiny fraction of model parameters. These findings reframe reasoning improvement as sparse policy selection, not capability acquisition. We translate this insight into ReasonMaxxer, a minimal RL-free method that applies contrastive loss only at entropy-gated decision points, using a few hundred base-model rollouts and no online generation. Across three model families, six scales, and six math reasoning benchmarks, ReasonMaxxer matches or exceeds full RL performance while requiring only tens of problems and minutes of single-GPU training, a reduction in training cost of roughly three orders of magnitude.