Projected Microbatch Accumulation yields reference-free proximal policy updates for reinforcement learning
作者: Nilin Abrahamsen
分类: cs.LG, cs.AI
发布日期: 2026-01-15
💡 一句话要点
提出PROMA,一种无需参考策略的近端策略更新方法,用于大规模语言模型微调。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 微调 近端策略优化 梯度累积
📋 核心要点
- 现有强化学习方法如PPO和GRPO,在微调大型语言模型时,存在熵坍塌或依赖参考策略的问题。
- PROMA通过投影去除序列方向的梯度分量,在微批量之间累积策略梯度,实现无需参考策略的近端策略更新。
- 实验表明,PROMA能更严格控制KL散度,实现更稳定的策略学习,且避免了熵坍塌现象。
📝 摘要(中文)
本文介绍了一种名为投影微批量累积(PROMA)的近端策略更新方法,用于大规模语言模型微调。PROMA通过在微批量聚合之前,投影去除序列方向的梯度分量,从而在微批量之间累积策略梯度。该投影在反向传播期间逐层应用,无需额外的正向或反向传播即可实现高效实现。实验结果表明,PROMA比GRPO更能严格控制局部KL散度,从而实现更稳定的策略学习。与PPO和GRPO不同,PROMA在实现近端更新的同时,避免了熵坍塌,并且不依赖于参考策略或似然比裁剪。
🔬 方法详解
问题定义:现有基于强化学习的大型语言模型微调方法,如PPO和GRPO,存在一些问题。PPO依赖于似然比裁剪和参考策略,增加了计算复杂度,并且可能导致熵坍塌。GRPO虽然尝试解决这些问题,但在控制KL散度方面可能不够严格,导致策略学习不稳定。因此,需要一种更稳定、更高效的近端策略更新方法,避免参考策略和熵坍塌。
核心思路:PROMA的核心思路是在累积策略梯度时,通过投影操作去除序列方向的梯度分量。这样做可以更精确地控制策略更新的幅度,避免过大的更新步长导致策略不稳定。通过逐层应用投影,PROMA可以在反向传播过程中高效地实现梯度累积,而无需额外的正向或反向传播。
技术框架:PROMA的技术框架主要包括以下几个步骤:首先,将训练数据分成多个微批量。然后,对于每个微批量,计算策略梯度。在反向传播过程中,对每一层应用投影操作,去除序列方向的梯度分量。最后,将所有微批量的梯度累积起来,用于更新策略。整个过程无需参考策略,并且可以有效地控制KL散度。
关键创新:PROMA的关键创新在于提出了投影微批量累积的概念,通过投影操作去除序列方向的梯度分量,从而实现更稳定的策略更新。与PPO和GRPO相比,PROMA不需要参考策略,避免了熵坍塌问题,并且能够更精确地控制KL散度。此外,PROMA的实现方式非常高效,无需额外的正向或反向传播。
关键设计:PROMA的关键设计包括以下几个方面:首先,投影操作的具体实现方式,通常使用正交投影,将梯度投影到与序列方向正交的子空间。其次,微批量大小的选择,需要根据具体任务和数据集进行调整。此外,学习率的选择也至关重要,需要仔细调整以获得最佳性能。损失函数通常采用标准的策略梯度损失函数,例如优势函数乘以对数概率。
📊 实验亮点
实验结果表明,PROMA在控制局部KL散度方面优于GRPO,实现了更稳定的策略学习。与PPO和GRPO不同,PROMA在实现近端更新的同时,避免了熵坍塌,并且不依赖于参考策略或似然比裁剪。具体性能提升数据未知,但摘要强调了其稳定性和避免熵坍塌的优势。
🎯 应用场景
PROMA可应用于各种需要使用强化学习进行微调的大型语言模型,例如文本生成、对话系统、代码生成等。该方法能够提高策略学习的稳定性,避免熵坍塌,从而生成更高质量的文本。此外,PROMA无需参考策略,降低了计算复杂度,使其更易于部署和应用。未来,PROMA有望成为大型语言模型微调的标准方法之一。
📄 摘要(原文)
This note introduces Projected Microbatch Accumulation (PROMA), a proximal policy update method for large language model fine-tuning. PROMA accumulates policy gradients across microbatches by projecting out sequence-wise gradient components before microbatch aggregation. The projection is applied layer-wise during the backward pass, enabling efficient implementation without additional forward or backward passes. Empirically, PROMA enforces tighter control of local KL divergence than GRPO, resulting in more stable policy learning. Unlike PPO and GRPO, PROMA achieves proximal updates without inducing entropy collapse and does not rely on a reference policy or likelihood-ratio clipping.