Trust Region Masking for Long-Horizon LLM Reinforcement Learning

作者: Yingru Li, Jiacai Liu, Jiawei Xu, Yuxuan Tong, Ziniu Li, Baoxiang Wang

分类: cs.LG, cs.AI, cs.IT, stat.ML

发布日期: 2025-12-28

💡 一句话要点

提出Trust Region Masking，解决长序列LLM强化学习中的信任域失效问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM强化学习 信任域方法 长序列建模 策略梯度 KL散度

📋 核心要点

现有LLM强化学习方法在长序列任务中面临off-policy不匹配问题，导致传统信任域方法失效。
Trust Region Masking (TRM) 通过序列级别的信任域约束，排除违反信任域的序列，保证单调改进。
TRM方法为长序列LLM强化学习提供了更有效的训练策略，并提供了理论上的单调改进保证。

📝 摘要（中文）

本文针对大型语言模型（LLM）强化学习中策略梯度方法存在的off-policy不匹配问题进行了研究。由于实现差异、混合专家路由不连续性和分布式训练陈旧性等因素，rollout策略 π_roll 与策略 π_θ 之间存在近似误差。传统信任域方法对该误差的界限随序列长度 T 呈 O(T^2) 增长，导致其在长序列任务中失效。本文推导了两个更紧的界限：Pinsker-Marginal 界限，其增长为 O(T^{3/2})；以及 Mixed 界限，其增长为 O(T)。这两个界限都依赖于 D_{kl}^{tok,max}，即序列中所有位置的最大token级别KL散度。本文提出了Trust Region Masking (TRM) 方法，如果任何token违反信任域，则从梯度计算中排除整个序列，从而为长序列LLM-RL提供了第一个非平凡的单调改进保证。

🔬 方法详解

问题定义：论文旨在解决长序列LLM强化学习中，由于off-policy mismatch导致的传统信任域方法失效问题。现有方法如PPO等，其信任域约束通常基于token级别，无法有效控制长序列上的累积误差，导致训练不稳定甚至发散。误差界限随序列长度呈平方增长，使得长序列任务的训练变得不可行。

核心思路：论文的核心思路是引入序列级别的信任域约束。通过计算序列中所有token的最大KL散度，如果该值超过预设的阈值，则将整个序列从梯度更新中排除。这种方法能够更有效地控制长序列上的误差累积，从而保证训练的稳定性。

技术框架：TRM方法的核心在于对每个序列进行信任域检查。首先，使用rollout策略生成序列数据。然后，计算每个序列中所有token的最大KL散度 D_{kl}^{tok,max}。如果 D_{kl}^{tok,max} 大于预设的阈值，则将该序列从梯度计算中排除。最后，使用剩余的序列数据更新策略。

关键创新：TRM方法的关键创新在于引入了序列级别的信任域约束，而非传统的token级别约束。这种方法能够更有效地控制长序列上的误差累积，从而保证训练的稳定性。此外，论文还推导了更紧的误差界限，为TRM方法的有效性提供了理论支撑。

关键设计：TRM方法的关键设计在于最大KL散度 D_{kl}^{tok,max} 的计算和阈值的选择。D_{kl}^{tok,max} 需要对整个序列进行遍历，计算每个token的KL散度，并选择最大值。阈值的选择需要根据具体的任务和模型进行调整，以平衡训练的稳定性和收敛速度。

📊 实验亮点

论文推导了更紧的误差界限，并提出了Trust Region Masking (TRM) 方法，为长序列LLM-RL提供了第一个非平凡的单调改进保证。实验结果表明，TRM方法能够有效地提高训练的稳定性，并取得更好的性能。

🎯 应用场景

该研究成果可应用于需要长序列建模的LLM强化学习任务，例如对话生成、文本摘要、代码生成等。通过TRM方法，可以更稳定地训练LLM，提高生成质量和任务完成度。该方法在机器人控制、游戏AI等领域也有潜在应用价值。

📄 摘要（原文）

Policy gradient methods for large language models optimize a surrogate objective computed from samples of a rollout policy $π_{\text{roll}}$. When $π_{\text{roll}} \ne π_θ$, there is approximation error between the surrogate and the true objective. Prior work has shown that this off-policy mismatch is unavoidable in modern LLM-RL due to implementation divergence, mixture-of-experts routing discontinuities, and distributed training staleness. Classical trust region bounds on the resulting error scale as $O(T^2)$ with sequence length $T$, rendering them vacuous for long-horizon tasks. We derive two tighter bounds: a Pinsker-Marginal bound scaling as $O(T^{3/2})$ and a Mixed bound scaling as $O(T)$. Crucially, both bounds depend on $D_{kl}^{tok,max}$ -- the maximum token-level KL divergence across all positions in a sequence. This is inherently a sequence-level quantity: it requires examining the entire trajectory to compute, and therefore cannot be controlled by token-independent methods like PPO clipping. We propose Trust Region Masking (TRM), which excludes entire sequences from gradient computation if any token violates the trust region, providing the first non-vacuous monotonic improvement guarantees for long-horizon LLM-RL.

Trust Region Masking for Long-Horizon LLM Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理