Token-Efficient RL for LLM Reasoning

作者: Alan Lee, Harry Tong

分类: cs.LG, cs.AI

发布日期: 2025-04-29 (更新: 2025-06-11)

备注: Title updated to "Token-Efficient RL for LLM Reasoning" to better reflect algorithmic focus. Revised abstract, intro, and conclusion. Paper shortened and typos fixed

💡 一句话要点

提出Token高效强化学习方法，解决LLM推理中内存和计算资源限制问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 LoRA微调 Token选择 策略梯度

📋 核心要点

现有LLM推理方法在资源受限场景下，面临着内存占用高、计算成本大的挑战，尤其是在微调时。
论文提出基于token选择的强化学习策略，仅在少量关键token上进行优化，降低内存需求并稳定训练过程。
实验表明，该方法在Qwen2-1.5B模型上，显著提升了SVAMP基准的准确率，并在多位数乘法任务中表现出色。

📝 摘要（中文）

本文提出了一系列强化学习（RL）策略，专门为大语言模型（LLM）在严格的内存和计算资源限制下进行推理而设计，特别关注与LoRA微调的兼容性。在早期带有基线减法的策略梯度方法的基础上，我们设计了无Critic的方法，这些方法在输出token的一个小的、信息丰富的子集上运行，以减少内存使用并稳定训练。我们引入了S-GRPO，一种Group Relative Policy Optimization的随机变体，以及T-SPMO，一种用于细粒度信用分配的token级别前缀匹配方法。应用于Qwen2-1.5B，我们的方法将SVAMP基准上的准确率从46%提高到70%以上，并在多位数乘法上表现出强大的性能。令人惊讶的是，LoRA下的全token GRPO未能超过基础模型，这表明选择性的token级别优化可能在低参数训练方案中充当隐式正则化器。

🔬 方法详解

问题定义：现有的大语言模型（LLM）推理方法，在资源受限的环境下，特别是使用LoRA进行微调时，面临着巨大的内存和计算压力。传统的强化学习方法需要处理大量的token，导致训练不稳定且效率低下。因此，如何在有限的计算资源下，有效地训练LLM进行复杂推理，是一个亟待解决的问题。

核心思路：论文的核心思路是只关注对推理过程影响最大的token子集，通过选择性地优化这些token，来降低内存占用和计算复杂度。这种方法类似于一种隐式的正则化，可以避免在低参数训练方案中出现过拟合现象。

技术框架：整体框架基于策略梯度强化学习，但移除了Critic网络，简化了训练流程。主要包含以下几个模块：1) Token选择模块：用于选择信息量最大的token子集；2) 策略优化模块：使用改进的策略梯度算法，如S-GRPO和T-SPMO，对选定的token进行优化；3) 奖励函数设计：根据任务目标，设计合适的奖励函数，引导模型学习正确的推理过程。

关键创新：论文的关键创新在于提出了两种新的token级别的强化学习算法：S-GRPO（Stochastic Group Relative Policy Optimization）和T-SPMO（Token-level Prefix Matching Optimization）。S-GRPO是GRPO的一种随机变体，能够更好地探索策略空间。T-SPMO则通过token级别的前缀匹配，实现更细粒度的信用分配，从而更有效地训练模型。与传统的全token优化方法相比，这两种方法都更加token-efficient。

关键设计：S-GRPO的关键设计在于引入了随机性，使得策略更新更加平滑，避免了训练过程中的震荡。T-SPMO的关键设计在于使用前缀匹配来确定每个token对最终结果的贡献，从而实现更精确的信用分配。此外，论文还特别关注了与LoRA微调的兼容性，确保提出的方法能够有效地利用LoRA的参数效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Qwen2-1.5B模型上，使用提出的方法在SVAMP基准测试中，准确率从46%提升到70%以上，取得了显著的性能提升。此外，该方法在多位数乘法任务中也表现出强大的性能。令人惊讶的是，全token GRPO在LoRA微调下未能超过基础模型，这进一步验证了token选择策略的有效性。

🎯 应用场景

该研究成果可广泛应用于资源受限的场景，例如移动设备、嵌入式系统等。通过token高效的强化学习方法，可以在这些平台上部署高性能的LLM推理应用，例如智能助手、自动问答系统等。此外，该方法还可以用于训练更小、更高效的LLM，降低模型部署的成本和能耗。

📄 摘要（原文）

We propose reinforcement learning (RL) strategies tailored for reasoning in large language models (LLMs) under strict memory and compute limits, with a particular focus on compatibility with LoRA fine-tuning. Building on early policy gradient methods with baseline subtraction, we design critic-free methods that operate on a small, informative subset of output tokens to reduce memory usage and stabilize training. We introduce S-GRPO, a stochastic variant of Group Relative Policy Optimization, and T-SPMO, a token-level prefix matching approach for fine-grained credit assignment. Applied to Qwen2-1.5B, our methods raise accuracy on the SVAMP benchmark from 46% to over 70% and show strong performance on multi-digit multiplication. Surprisingly, full-token GRPO under LoRA fails to improve over the base model, suggesting that selective token-level optimization may act as an implicit regularizer in low-parameter training regimes.

Token-Efficient RL for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理