TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents
作者: Jiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng
分类: cs.LG, cs.AI
发布日期: 2026-04-27
💡 一句话要点
提出TCOD,通过时序课程学习解决多轮自主Agent在线蒸馏中的KL不稳定性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 在线蒸馏 多轮Agent 课程学习 KL不稳定性 时序建模
📋 核心要点
- 传统在线蒸馏方法在多轮Agent任务中存在轨迹级KL不稳定性,导致训练过程不稳定和性能下降。
- TCOD通过时序课程学习,控制学生模型接触的轨迹深度,从短到长逐步扩展,缓解误差累积。
- 实验表明,TCOD能有效减轻KL不稳定性,提升Agent性能高达18个点,甚至超越教师模型。
📝 摘要(中文)
在线蒸馏(OPD)在将推理能力从前沿或特定领域模型迁移到较小的学生模型方面显示出强大的潜力。虽然在静态单轮任务上有效,但其在多轮Agent环境中的行为仍未被充分探索。本文发现 vanilla OPD 在此类环境中存在一个关键限制,我们称之为轨迹级KL不稳定性。具体来说,我们观察到KL散度随着成功率的下降而增加,即使在收敛后,KL仍然很高,导致训练不稳定。这种不稳定性源于回合间的误差累积:随着误差的累积,学生模型被推到超出教师模型的有效支持范围之外,使得监督信号变得不可靠。为了解决这个问题,我们提出了TCOD(时序课程在线蒸馏),一个简单而有效的框架,它控制暴露给学生的轨迹深度,并通过课程表从短到长逐步扩展它。在三个多轮Agent基准测试(ALFWorld、WebShop、ScienceWorld)上的四个学生-教师对的实验结果表明,TCOD 减轻了 KL 升级并增强了整个训练过程中的 KL 稳定性,与 vanilla OPD 相比,Agent 性能提高了高达 18 个点。进一步的评估表明,TCOD 甚至可以超越教师的性能并泛化到教师失败的任务。
🔬 方法详解
问题定义:论文旨在解决多轮自主Agent在线蒸馏训练中出现的轨迹级KL不稳定性问题。现有在线蒸馏方法在单轮静态任务中表现良好,但在多轮交互环境中,学生模型容易受到回合间误差累积的影响,导致KL散度增大、成功率下降,最终训练不稳定。这种不稳定性使得学生模型难以有效地从教师模型学习。
核心思路:论文的核心思路是引入时序课程学习,控制学生模型在训练过程中接触的轨迹长度。通过逐步增加轨迹长度,学生模型可以先学习简单的短期依赖关系,再逐步学习复杂的长期依赖关系,从而避免一开始就暴露在大量噪声数据中,缓解误差累积,提高学习效率和稳定性。
技术框架:TCOD框架主要包含以下几个部分:首先,定义一个课程表,该课程表指定了在训练的每个阶段学生模型应该学习的轨迹长度。其次,在每个训练迭代中,从教师模型的轨迹中采样固定长度的子轨迹,并使用这些子轨迹来训练学生模型。随着训练的进行,课程表会逐步增加子轨迹的长度。最后,使用标准的在线蒸馏损失函数(例如KL散度)来衡量学生模型和教师模型之间的差异,并使用优化算法来更新学生模型的参数。
关键创新:TCOD的关键创新在于将课程学习的思想引入到多轮Agent的在线蒸馏训练中。与传统的在线蒸馏方法相比,TCOD能够更好地控制学生模型的学习过程,避免其过早地暴露在复杂的长期依赖关系中,从而缓解误差累积,提高学习效率和稳定性。此外,TCOD的实现方式简单有效,易于集成到现有的在线蒸馏框架中。
关键设计:TCOD的关键设计包括:1) 课程表的选择:课程表决定了学生模型在训练的每个阶段应该学习的轨迹长度。论文中使用了线性课程表,即轨迹长度随着训练的进行线性增加。2) 子轨迹的采样方式:论文中使用了均匀采样的方式,即从教师模型的轨迹中随机采样固定长度的子轨迹。3) 损失函数:论文中使用了KL散度作为损失函数,衡量学生模型和教师模型之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TCOD在ALFWorld、WebShop和ScienceWorld三个多轮Agent基准测试上均优于vanilla OPD。在某些任务上,TCOD可以将Agent性能提高高达18个点。此外,TCOD还能够超越教师模型的性能,并在教师模型失败的任务上取得成功,表明TCOD具有更好的泛化能力。
🎯 应用场景
TCOD方法可应用于各种需要多轮交互的自主Agent任务,例如对话系统、游戏AI、机器人导航等。通过将知识从大型教师模型迁移到小型学生模型,可以降低部署成本,提高推理速度,并增强Agent的泛化能力。该方法在资源受限的设备上部署高性能Agent具有重要意义。
📄 摘要(原文)
On-policy distillation (OPD) has shown strong potential for transferring reasoning ability from frontier or domain-specific models to smaller students. While effective on static single-turn tasks, its behavior in multi-turn agent settings remains underexplored. In this work, we identify a key limitation of vanilla OPD in such settings, which we term Trajectory-Level KL Instability. Specifically, we observe that KL divergence increases together with a drop in success rate, and even after convergence, the KL remains high, leading to unstable training. This instability arises from inter-turn error compounding: as errors accumulate, the student is driven beyond the teacher's effective support, rendering the supervision signal unreliable. To address this, we propose TCOD (Temporal Curriculum On-Policy Distillation), a simple yet effective framework that controls the trajectory depth exposed to the student and progressively expands it from short to long with a curriculum schedule.Experimental results across four student-teacher pairs on three multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) show that TCOD mitigates KL escalation and enhances KL stability throughout training, improving agent performance by up to 18 points over vanilla OPD. Further evaluations show that TCOD can even surpass the teacher's performance and generalize to tasks on which the teacher fails.