Self-Distilled Agentic Reinforcement Learning

作者: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-14

💡 一句话要点

提出SDAR，通过自蒸馏提升LLM Agent在复杂交互任务中的强化学习效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 自蒸馏 LLM Agent 多轮交互 门控机制

📋 核心要点

现有强化学习方法在训练LLM Agent时，轨迹级别的奖励信号对于长程交互任务的指导不足。
SDAR将OPSD作为门控辅助目标，利用token级别的自蒸馏信号，同时保留RL作为主要优化目标。
实验表明，SDAR在ALFWorld、WebShop和Search-QA等任务上显著优于现有方法，且避免了训练不稳定问题。

📝 摘要（中文）

强化学习(RL)已成为训练LLM Agent的主要范式，但其轨迹级别的奖励信号对于长程交互来说过于粗糙。On-Policy Self-Distillation (OPSD)通过引入来自具有特权上下文的教师分支的密集token级别指导来补充RL。然而，将OPSD应用于多轮Agent存在问题：多轮不稳定性会加剧监督的难度，而技能条件特权指导需要对教师的负面拒绝进行非对称处理，因为这些拒绝可能源于不完善的技能检索或利用。我们提出了SDAR (Self-Distilled Agentic Reinforcement Learning)，它将OPSD视为一个门控辅助目标，同时保持RL作为主要的优化骨干。SDAR将分离的token级别信号映射到一个sigmoid门，加强对教师认可的正向gap token的蒸馏，并柔和地衰减负面的教师拒绝。在ALFWorld、WebShop和Search-QA上，基于Qwen2.5和Qwen3系列模型，SDAR显著优于GRPO（ALFWorld上+9.4%，Search-QA上+7.0%，WebShop-Acc上+10.2%），避免了naive GRPO+OPSD的不稳定性，并且在不同模型规模上始终优于混合RL--OPSD基线。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在复杂交互任务中，由于强化学习奖励信号稀疏而导致的训练困难问题。现有方法，如直接使用轨迹级别的强化学习，无法提供token级别的细粒度指导。而直接将On-Policy Self-Distillation (OPSD)应用于多轮Agent，会因为多轮交互的不稳定性而导致监督信号不稳定，同时教师的负面反馈可能源于技能检索或利用的失败，需要区别对待。

核心思路：论文的核心思路是将OPSD作为一种辅助目标，通过门控机制来控制其对强化学习主目标的干扰。具体来说，SDAR利用token级别的自蒸馏信号，但不是直接将其作为硬性约束，而是通过一个sigmoid门来调节其影响。对于教师认可的正向gap token，加强蒸馏；对于教师的负面反馈，则进行柔和衰减，避免误导强化学习。

技术框架：SDAR的整体框架是在标准的强化学习训练流程中加入一个自蒸馏分支。该分支使用一个具有特权上下文的教师模型来生成token级别的指导信号。然后，SDAR将这些信号映射到一个sigmoid门，该门控制着自蒸馏损失对总损失的贡献。强化学习仍然是主要的优化骨干，而自蒸馏则作为一种辅助手段，提供更细粒度的指导。

关键创新：SDAR的关键创新在于其门控自蒸馏机制。与直接将自蒸馏信号作为硬性约束不同，SDAR通过sigmoid门来动态调节其影响，从而更好地适应多轮交互任务中的不确定性。这种方法能够有效利用教师模型的知识，同时避免因教师的错误反馈而误导强化学习。

关键设计：SDAR的关键设计包括：1) 使用具有特权上下文的教师模型生成token级别的指导信号；2) 将这些信号映射到sigmoid门，用于调节自蒸馏损失；3) 将自蒸馏损失与强化学习损失相结合，形成最终的优化目标。具体来说，sigmoid门的输入是教师模型和学生模型在token级别的输出差异，输出是0到1之间的权重，用于调节自蒸馏损失的强度。损失函数是强化学习损失和门控自蒸馏损失的加权和。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SDAR在ALFWorld、WebShop和Search-QA等任务上显著优于现有方法。具体来说，在ALFWorld上，SDAR相比GRPO提升了9.4%；在Search-QA上，提升了7.0%；在WebShop-Acc上，提升了10.2%。此外，SDAR还避免了naive GRPO+OPSD的不稳定性，并且在不同模型规模上始终优于混合RL--OPSD基线，证明了其有效性和鲁棒性。

🎯 应用场景

SDAR具有广泛的应用前景，可以应用于各种需要复杂交互的LLM Agent任务，例如对话系统、游戏AI、智能助手等。通过提供更细粒度的指导信号，SDAR可以显著提升Agent在这些任务中的性能和鲁棒性，使其能够更好地理解用户意图并做出合理的决策。该方法还可以应用于其他类型的强化学习任务，例如机器人控制和自动驾驶。

📄 摘要（原文）

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.

Self-Distilled Agentic Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理