Trust Region Masking for Long-Horizon LLM Reinforcement Learning
作者: Yingru Li, Jiacai Liu, Jiawei Xu, Yuxuan Tong, Ziniu Li, Baoxiang Wang
分类: cs.LG, cs.AI, cs.IT, stat.ML
发布日期: 2025-12-28
💡 一句话要点
提出Trust Region Masking,解决长序列LLM强化学习中的信任域失效问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM强化学习 信任域方法 长序列建模 策略梯度 KL散度
📋 核心要点
- 现有LLM强化学习方法在长序列任务中面临off-policy不匹配问题,导致传统信任域方法失效。
- Trust Region Masking (TRM) 通过序列级别的信任域约束,排除违反信任域的序列,保证单调改进。
- TRM方法为长序列LLM强化学习提供了更有效的训练策略,并提供了理论上的单调改进保证。
📝 摘要(中文)
本文针对大型语言模型(LLM)强化学习中策略梯度方法存在的off-policy不匹配问题进行了研究。由于实现差异、混合专家路由不连续性和分布式训练陈旧性等因素,rollout策略 π_roll 与策略 π_θ 之间存在近似误差。传统信任域方法对该误差的界限随序列长度 T 呈 O(T^2) 增长,导致其在长序列任务中失效。本文推导了两个更紧的界限:Pinsker-Marginal 界限,其增长为 O(T^{3/2});以及 Mixed 界限,其增长为 O(T)。这两个界限都依赖于 D_{kl}^{tok,max},即序列中所有位置的最大token级别KL散度。本文提出了Trust Region Masking (TRM) 方法,如果任何token违反信任域,则从梯度计算中排除整个序列,从而为长序列LLM-RL提供了第一个非平凡的单调改进保证。
🔬 方法详解
问题定义:论文旨在解决长序列LLM强化学习中,由于off-policy mismatch导致的传统信任域方法失效问题。现有方法如PPO等,其信任域约束通常基于token级别,无法有效控制长序列上的累积误差,导致训练不稳定甚至发散。误差界限随序列长度呈平方增长,使得长序列任务的训练变得不可行。
核心思路:论文的核心思路是引入序列级别的信任域约束。通过计算序列中所有token的最大KL散度,如果该值超过预设的阈值,则将整个序列从梯度更新中排除。这种方法能够更有效地控制长序列上的误差累积,从而保证训练的稳定性。
技术框架:TRM方法的核心在于对每个序列进行信任域检查。首先,使用rollout策略生成序列数据。然后,计算每个序列中所有token的最大KL散度 D_{kl}^{tok,max}。如果 D_{kl}^{tok,max} 大于预设的阈值,则将该序列从梯度计算中排除。最后,使用剩余的序列数据更新策略。
关键创新:TRM方法的关键创新在于引入了序列级别的信任域约束,而非传统的token级别约束。这种方法能够更有效地控制长序列上的误差累积,从而保证训练的稳定性。此外,论文还推导了更紧的误差界限,为TRM方法的有效性提供了理论支撑。
关键设计:TRM方法的关键设计在于最大KL散度 D_{kl}^{tok,max} 的计算和阈值的选择。D_{kl}^{tok,max} 需要对整个序列进行遍历,计算每个token的KL散度,并选择最大值。阈值的选择需要根据具体的任务和模型进行调整,以平衡训练的稳定性和收敛速度。
📊 实验亮点
论文推导了更紧的误差界限,并提出了Trust Region Masking (TRM) 方法,为长序列LLM-RL提供了第一个非平凡的单调改进保证。实验结果表明,TRM方法能够有效地提高训练的稳定性,并取得更好的性能。
🎯 应用场景
该研究成果可应用于需要长序列建模的LLM强化学习任务,例如对话生成、文本摘要、代码生成等。通过TRM方法,可以更稳定地训练LLM,提高生成质量和任务完成度。该方法在机器人控制、游戏AI等领域也有潜在应用价值。
📄 摘要(原文)
Policy gradient methods for large language models optimize a surrogate objective computed from samples of a rollout policy $π_{\text{roll}}$. When $π_{\text{roll}} \ne π_θ$, there is approximation error between the surrogate and the true objective. Prior work has shown that this off-policy mismatch is unavoidable in modern LLM-RL due to implementation divergence, mixture-of-experts routing discontinuities, and distributed training staleness. Classical trust region bounds on the resulting error scale as $O(T^2)$ with sequence length $T$, rendering them vacuous for long-horizon tasks. We derive two tighter bounds: a Pinsker-Marginal bound scaling as $O(T^{3/2})$ and a Mixed bound scaling as $O(T)$. Crucially, both bounds depend on $D_{kl}^{tok,max}$ -- the maximum token-level KL divergence across all positions in a sequence. This is inherently a sequence-level quantity: it requires examining the entire trajectory to compute, and therefore cannot be controlled by token-independent methods like PPO clipping. We propose Trust Region Masking (TRM), which excludes entire sequences from gradient computation if any token violates the trust region, providing the first non-vacuous monotonic improvement guarantees for long-horizon LLM-RL.