Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction
作者: Zhong Guan, Yongjian Guo, Haoran Sun, Wen Huang, Shuai Di, Xiong Jun Wu, Likang Wu, Hongke Zhao
分类: cs.LG, cs.AI
发布日期: 2026-05-12
🔗 代码/项目: GITHUB
💡 一句话要点
针对异步Agent强化学习中缺失旧Logits问题,提出语义解耦的修正方法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异步强化学习 Off-Policy修正 重要性采样 旧Logits缺失 PPO-EWMA 训练-推理差异 策略陈旧性
📋 核心要点
- 异步强化学习中,由于延迟更新和部分rollout,旧logits的缺失导致训练-推理差异和策略陈旧性修正相互干扰。
- 论文提出通过精确获取(快照、专用模型、同步)或近似修正(改进的PPO-EWMA)来解决旧logits缺失问题。
- 实验表明,改进的PPO-EWMA方法在训练速度和优化性能上均有显著提升,验证了解耦修正的有效性。
📝 摘要(中文)
异步强化学习通过解耦样本生成和策略优化来提高大型语言模型Agent的rollout吞吐量,但也为PPO风格的off-policy修正引入了一个关键的失效模式。在异构训练系统中,总重要性比率应理想地分解为两个语义上不同的因素:一个训练-推理差异项,用于对齐同一行为策略版本的推理端和训练端分布;以及一个策略陈旧项,用于约束从历史策略到当前策略的更新。我们发现,具有延迟更新和部分rollout的实际异步pipeline经常丢失所需的历史训练端logits,即旧logits。这种缺失旧logits的问题将差异修正与陈旧性修正纠缠在一起,打破了解耦修正的预期语义,并使裁剪和掩码阈值产生不良的相互作用。为了解决这个问题,我们研究了精确和近似修正路线。我们提出了三种精确的旧logits获取策略:基于快照的版本跟踪、专用旧logits模型以及通过部分rollout中断进行同步,并比较了它们的系统权衡。从近似修正的角度来看,我们专注于在无法以低成本恢复精确旧logits时,通过更合适的近似策略来保持解耦修正的优势,而不会产生额外的系统开销。在此分析之后,我们采用了一种改进的PPO-EWMA方法,该方法在训练速度和优化性能方面都取得了显著的提升。
🔬 方法详解
问题定义:论文旨在解决异步强化学习中,由于训练和推理环境不同步导致的“缺失旧Logits”问题。具体来说,在PPO等off-policy算法中,需要使用旧的logits来计算重要性采样权重,进行策略修正。但在异步环境中,由于延迟更新和部分rollout,训练时使用的旧logits可能无法获取,导致重要性采样权重计算错误,进而影响策略学习的稳定性。
核心思路:论文的核心思路是将总重要性比率分解为两个语义上独立的项:训练-推理差异项和策略陈旧项。通过解耦这两个项,可以更精确地进行off-policy修正,避免因缺失旧logits而导致的修正偏差。论文认为,现有的异步pipeline中,缺失旧logits的问题将这两个项纠缠在一起,导致修正效果不佳。
技术框架:论文提出了两种主要的解决方案:精确修正和近似修正。精确修正包括三种策略:1) 基于快照的版本跟踪,记录每个rollout对应的策略版本;2) 专用旧logits模型,维护一个专门用于预测旧logits的模型;3) 通过部分rollout中断进行同步,确保训练和推理使用相同的策略版本。近似修正则侧重于在无法获取精确旧logits时,使用更合适的近似策略,例如改进的PPO-EWMA方法。
关键创新:论文的关键创新在于对异步强化学习中off-policy修正问题的深刻理解,以及对总重要性比率的语义解耦。通过将总重要性比率分解为训练-推理差异项和策略陈旧项,论文能够更准确地诊断问题,并提出相应的解决方案。与现有方法相比,论文提出的方法能够更好地处理异步环境中的策略修正问题。
关键设计:在近似修正方面,论文采用了PPO-EWMA方法,并对其进行了改进。PPO-EWMA使用指数移动平均来平滑策略更新,从而减少策略的剧烈变化。论文可能调整了EWMA的参数,例如平滑系数,以更好地适应异步环境。此外,论文可能还对PPO的损失函数进行了修改,以更好地利用近似的旧logits信息。
🖼️ 关键图片
📊 实验亮点
论文提出的改进PPO-EWMA方法在实验中取得了显著的性能提升,在训练速度和优化性能方面均优于现有方法。具体数据未知,但摘要中明确指出获得了“significant gains”,表明该方法在实际应用中具有较强的竞争力。
🎯 应用场景
该研究成果可应用于各种需要大规模异步强化学习的场景,例如机器人控制、游戏AI、推荐系统等。通过解决异步环境下的off-policy修正问题,可以提高训练效率和策略性能,加速Agent的部署和应用。尤其是在需要大量计算资源和分布式训练的场景下,该研究具有重要的实际价值。
📄 摘要(原文)
Asynchronous reinforcement learning improves rollout throughput for large language model agents by decoupling sample generation from policy optimization, but it also introduces a critical failure mode for PPO-style off-policy correction. In heterogeneous training systems, the total importance ratio should ideally be decomposed into two semantically distinct factors: a \emph{training--inference discrepancy term} that aligns inference-side and training-side distributions at the same behavior-policy version, and a \emph{policy-staleness term} that constrains the update from the historical policy to the current policy. We show that practical asynchronous pipelines with delayed updates and partial rollouts often lose the required historical training-side logits, or old logits. This missing-old-logit problem entangles discrepancy repair with staleness correction, breaks the intended semantics of decoupled correction, and makes clipping and masking thresholds interact undesirably. To address this issue, we study both exact and approximate correction routes. We propose three exact old-logit acquisition strategies: snapshot-based version tracking, a dedicated old-logit model, and synchronization via partial rollout interruption, and compare their system trade-offs. From the perspective of approximate correction, we focus on preserving the benefits of decoupled correction through a more appropriate approximate policy when exact old logits cannot be recovered at low cost, without incurring extra system overhead. Following this analysis, we adopt a revised PPO-EWMA method, which achieves significant gains in both training speed and optimization performance. Code at https://github.com/millioniron/ROLL.