Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
作者: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-01-29
备注: Work in progress
💡 一句话要点
LENS:通过指令净化进行强化学习推理,提升LLM在复杂任务中的探索效率和训练稳定性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大语言模型 推理 指令净化 可验证奖励
📋 核心要点
- 现有基于可验证奖励的强化学习方法在复杂任务中面临探索效率低、训练不稳定的问题。
- LENS框架通过识别并移除prompt中的干扰token,实现prompt净化,提高rollout的成功率。
- 实验表明,LENS在性能和收敛速度上均优于GRPO,验证了该方法在提升LLM推理能力方面的有效性。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)提升了大语言模型(LLM)的推理能力,但受限于有限的rollout预算下的低效探索,导致复杂任务中采样成功率低和训练不稳定。我们发现许多探索失败并非源于问题难度,而是源于少量引入干扰的prompt token。基于此,我们提出了Less Noise Sampling Framework (LENS),该框架首先通过识别和移除干扰token来进行prompt净化,然后将净化过程中的成功rollout迁移到原始的noisy prompt上,以监督策略优化,使模型学会在真实的noisy prompt环境中忽略干扰。实验结果表明,LENS显著优于GRPO,实现了更高的性能和更快的收敛速度,平均提升3.88%,加速超过1.6倍。我们的工作强调了剪除干扰token在提高rollout效率方面的关键作用,为RLVR研究提供了一个新的视角。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习方法在训练大语言模型进行复杂推理任务时,由于探索空间巨大且rollout预算有限,采样成功率较低,导致训练不稳定。许多探索失败并非源于问题本身的难度,而是由于prompt中存在少量干扰token,这些token会误导模型,使其难以找到正确的推理路径。
核心思路:LENS的核心思路是“去噪”,即通过识别并移除prompt中的干扰token,创建一个更“干净”的prompt,从而提高rollout的成功率。然后,利用在干净prompt上获得的成功经验来指导模型在原始noisy prompt上的学习,使其能够学会忽略干扰,提升泛化能力。
技术框架:LENS框架包含两个主要阶段:1) Prompt净化阶段:通过某种策略(具体策略未知,论文中未详细说明)识别并移除prompt中的干扰token,生成净化后的prompt。2) 策略优化阶段:首先,在净化后的prompt上进行rollout,收集成功样本。然后,利用这些成功样本来监督模型在原始noisy prompt上的策略优化,使模型学会忽略干扰。
关键创新:LENS的关键创新在于其“先净化,后学习”的思路。与直接在noisy prompt上进行强化学习不同,LENS首先通过prompt净化来提高rollout效率,然后利用净化后的数据来指导模型在原始环境中的学习。这种方法能够更有效地利用有限的rollout预算,提高模型的训练效率和性能。
关键设计:论文中未详细说明prompt净化阶段的具体策略,例如如何识别干扰token,以及如何选择移除哪些token。策略优化阶段的具体损失函数和网络结构也未详细说明。这些细节是未来研究可以深入探索的方向。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LENS框架在性能和收敛速度上均优于GRPO(一种现有的基于强化学习的推理方法),平均性能提升3.88%,训练速度提升超过1.6倍。这些结果表明,LENS框架能够更有效地利用有限的rollout预算,提高LLM的推理能力和训练效率。
🎯 应用场景
LENS框架可应用于各种需要大语言模型进行复杂推理的任务,例如数学问题求解、代码生成、知识图谱推理等。通过提高LLM的推理能力和训练效率,LENS可以降低AI应用的开发成本,并提升用户体验。该方法在智能客服、自动驾驶、金融风控等领域具有潜在的应用价值。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6$\times$ speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.