$\boldsymbol{f}$-OPD: Stabilizing Long-Horizon On-Policy Distillation with Freshness-Aware Control
作者: Xianwei Chen, Shimin Zhang, Jibin Wu
分类: cs.LG, cs.AI
发布日期: 2026-05-18
💡 一句话要点
提出f-OPD框架,通过新鲜度感知控制稳定长程On-Policy蒸馏训练。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: On-Policy蒸馏 异步训练 新鲜度感知 策略漂移 长程交互 大规模语言模型 强化学习 Agent训练
📋 核心要点
- 异步执行是LLM的On-Policy蒸馏(OPD)的关键,但会引入与理想On-Policy目标的偏差,导致性能下降。
- 提出f-OPD框架,通过样本级新鲜度评分来量化样本可靠性,并自适应调节陈旧样本的影响,约束策略漂移。
- 实验表明,f-OPD在保持异步执行高吞吐量的同时,实现了与同步优化相当的任务性能,提升了长程Agent训练效果。
📝 摘要(中文)
本文针对大规模语言模型(LLMs)的On-Policy蒸馏(OPD)训练中效率与性能的矛盾展开研究。异步执行对于系统效率至关重要,但与理想的On-Policy目标存在结构性偏差。作者将目标差异分解为rollout漂移和监督漂移,分别对应学生rollout和教师上下文中的陈旧性。基于此,引入样本级新鲜度评分,量化缓冲样本相对于On-Policy目标的可靠性。进一步提出f-OPD框架,自适应地调节陈旧样本的影响,并约束异步训练下累积的策略漂移。在推理、工具使用和编码代理等交互范围不断增加的任务中,f-OPD始终能达到与同步优化相当的任务性能,同时在很大程度上保留了异步执行的吞吐量优势。该研究为OPD中实现性能-效率权衡提供了首个有效方案,为大规模长程Agent的后训练铺平了道路。
🔬 方法详解
问题定义:On-Policy蒸馏(OPD)旨在通过模仿教师模型的行为来训练学生模型。然而,为了提高训练效率,通常采用异步执行方式,这导致学生模型rollout和教师模型上下文存在时间差,引入了rollout漂移和监督漂移,使得训练目标偏离真实的On-Policy目标,最终影响学生模型的性能。现有方法难以在保证训练效率的同时,有效控制这种偏差。
核心思路:本文的核心思路是引入“新鲜度”的概念,量化每个样本相对于On-Policy目标的可靠程度。通过计算样本的新鲜度评分,可以识别出由于异步执行而产生的陈旧样本,并降低这些样本在训练过程中的影响。同时,通过约束策略漂移,可以减少因异步执行导致的策略偏差。
技术框架:f-OPD框架主要包含以下几个模块:1) 样本缓冲池:用于存储学生模型rollout生成的样本;2) 新鲜度评分模块:计算每个样本的新鲜度评分,该评分反映了样本与On-Policy目标的接近程度;3) 损失函数调节模块:根据样本的新鲜度评分,自适应地调节损失函数中每个样本的权重,降低陈旧样本的影响;4) 策略漂移约束模块:通过正则化项约束学生模型的策略漂移,防止策略偏离On-Policy轨迹。
关键创新:f-OPD的关键创新在于引入了样本级新鲜度评分,并将其用于自适应地调节损失函数和约束策略漂移。与现有方法相比,f-OPD能够更精细地控制异步执行带来的偏差,从而在保证训练效率的同时,提高学生模型的性能。现有方法通常采用全局的同步或异步策略,无法区分不同样本的可靠性。
关键设计:新鲜度评分的计算方式是关键设计之一,论文中可能采用了基于时间差、策略差异或其他指标的计算方法。损失函数调节模块可能采用了加权损失或样本重采样等技术,以降低陈旧样本的影响。策略漂移约束模块可能采用了KL散度或其他距离度量方式,来约束学生模型和教师模型的策略差异。具体的参数设置(如新鲜度阈值、损失权重等)需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在推理、工具使用和编码代理等任务中,f-OPD能够达到与同步优化相当的任务性能,同时保持了异步执行的吞吐量优势。具体性能数据未知,但论文强调f-OPD在长程交互任务中表现出色,证明了其在解决异步训练偏差方面的有效性。该方法为OPD中实现性能-效率权衡提供了有效方案。
🎯 应用场景
f-OPD框架可应用于各种需要大规模语言模型进行On-Policy蒸馏的场景,例如智能对话、机器人控制、游戏AI等。该方法能够在保证训练效率的同时,提高Agent的性能,尤其适用于需要长程交互和复杂决策的任务。通过降低对同步训练的依赖,可以显著降低训练成本,加速Agent的开发和部署。
📄 摘要(原文)
Scaling on-policy distillation (OPD) for large language models (LLMs) confronts a fundamental tension: asynchronous execution is necessary for system efficiency, but structurally deviates from the ideal on-policy objective. To address this challenge, we theoretically decompose the objective discrepancy into rollout drift and supervision drift, capturing staleness in student rollout and teacher context, respectively. Building on this, we introduce a sample-level freshness score that quantifies the reliability of a buffered sample with respect to the on-policy objective. Guided by this signal, we further propose f-OPD, a novel framework that adaptively regulates stale-sample influence and constrains policy drift accumulated under asynchronous training. Across reasoning, tool-use, and coding-agent tasks of increasing interaction horizon, f-OPD consistently achieves task performance comparable to synchronous optimization while largely retaining the throughput advantages of asynchronous execution. Our results establish the first recipe for achieving a performance-efficiency trade-off in OPD, paving the way for long-horizon agentic post-training at scale.