Self-Distilled Agentic Reinforcement Learning

📄 arXiv: 2605.15155v1 📥 PDF

作者: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-14


💡 一句话要点

提出SDAR,通过自蒸馏提升LLM Agent在复杂交互任务中的强化学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 自蒸馏 LLM Agent 多轮交互 门控机制

📋 核心要点

  1. 现有强化学习方法在训练LLM Agent时,轨迹级别的奖励信号对于长程交互任务的指导不足。
  2. SDAR将OPSD作为门控辅助目标,利用token级别的自蒸馏信号,同时保留RL作为主要优化目标。
  3. 实验表明,SDAR在ALFWorld、WebShop和Search-QA等任务上显著优于现有方法,且避免了训练不稳定问题。

📝 摘要(中文)

强化学习(RL)已成为训练LLM Agent的主要范式,但其轨迹级别的奖励信号对于长程交互来说过于粗糙。On-Policy Self-Distillation (OPSD)通过引入来自具有特权上下文的教师分支的密集token级别指导来补充RL。然而,将OPSD应用于多轮Agent存在问题:多轮不稳定性会加剧监督的难度,而技能条件特权指导需要对教师的负面拒绝进行非对称处理,因为这些拒绝可能源于不完善的技能检索或利用。我们提出了SDAR (Self-Distilled Agentic Reinforcement Learning),它将OPSD视为一个门控辅助目标,同时保持RL作为主要的优化骨干。SDAR将分离的token级别信号映射到一个sigmoid门,加强对教师认可的正向gap token的蒸馏,并柔和地衰减负面的教师拒绝。在ALFWorld、WebShop和Search-QA上,基于Qwen2.5和Qwen3系列模型,SDAR显著优于GRPO(ALFWorld上+9.4%,Search-QA上+7.0%,WebShop-Acc上+10.2%),避免了naive GRPO+OPSD的不稳定性,并且在不同模型规模上始终优于混合RL--OPSD基线。

🔬 方法详解

问题定义:论文旨在解决LLM Agent在复杂交互任务中,由于强化学习奖励信号稀疏而导致的训练困难问题。现有方法,如直接使用轨迹级别的强化学习,无法提供token级别的细粒度指导。而直接将On-Policy Self-Distillation (OPSD)应用于多轮Agent,会因为多轮交互的不稳定性而导致监督信号不稳定,同时教师的负面反馈可能源于技能检索或利用的失败,需要区别对待。

核心思路:论文的核心思路是将OPSD作为一种辅助目标,通过门控机制来控制其对强化学习主目标的干扰。具体来说,SDAR利用token级别的自蒸馏信号,但不是直接将其作为硬性约束,而是通过一个sigmoid门来调节其影响。对于教师认可的正向gap token,加强蒸馏;对于教师的负面反馈,则进行柔和衰减,避免误导强化学习。

技术框架:SDAR的整体框架是在标准的强化学习训练流程中加入一个自蒸馏分支。该分支使用一个具有特权上下文的教师模型来生成token级别的指导信号。然后,SDAR将这些信号映射到一个sigmoid门,该门控制着自蒸馏损失对总损失的贡献。强化学习仍然是主要的优化骨干,而自蒸馏则作为一种辅助手段,提供更细粒度的指导。

关键创新:SDAR的关键创新在于其门控自蒸馏机制。与直接将自蒸馏信号作为硬性约束不同,SDAR通过sigmoid门来动态调节其影响,从而更好地适应多轮交互任务中的不确定性。这种方法能够有效利用教师模型的知识,同时避免因教师的错误反馈而误导强化学习。

关键设计:SDAR的关键设计包括:1) 使用具有特权上下文的教师模型生成token级别的指导信号;2) 将这些信号映射到sigmoid门,用于调节自蒸馏损失;3) 将自蒸馏损失与强化学习损失相结合,形成最终的优化目标。具体来说,sigmoid门的输入是教师模型和学生模型在token级别的输出差异,输出是0到1之间的权重,用于调节自蒸馏损失的强度。损失函数是强化学习损失和门控自蒸馏损失的加权和。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SDAR在ALFWorld、WebShop和Search-QA等任务上显著优于现有方法。具体来说,在ALFWorld上,SDAR相比GRPO提升了9.4%;在Search-QA上,提升了7.0%;在WebShop-Acc上,提升了10.2%。此外,SDAR还避免了naive GRPO+OPSD的不稳定性,并且在不同模型规模上始终优于混合RL--OPSD基线,证明了其有效性和鲁棒性。

🎯 应用场景

SDAR具有广泛的应用前景,可以应用于各种需要复杂交互的LLM Agent任务,例如对话系统、游戏AI、智能助手等。通过提供更细粒度的指导信号,SDAR可以显著提升Agent在这些任务中的性能和鲁棒性,使其能够更好地理解用户意图并做出合理的决策。该方法还可以应用于其他类型的强化学习任务,例如机器人控制和自动驾驶。

📄 摘要(原文)

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.