SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training
作者: Zhongyu He, Yuanfan Li, Fei Huang, Tianyu Chen, Siyuan Chen, Xingyang Li, Meng Hsuan Yu, Xiangrong Liu, Leyi Wei, Lu Pan, Ke Zeng, Xunliang Cai
分类: cs.AI, cs.LG
发布日期: 2026-06-01
🔗 代码/项目: GITHUB
💡 一句话要点
SIRI:通过自内部化强化学习与内在技能训练LLM Agent
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: LLM Agent 强化学习 技能学习 自内部化 技能蒸馏
📋 核心要点
- 现有基于技能的LLM Agent方法依赖外部技能生成器或技能库,增加了复杂性、上下文长度和延迟。
- SIRI通过自技能挖掘、验证和内部化,无需外部资源即可使Agent获得可复用技能。
- 在ALFWorld和WebShop实验中,SIRI显著优于GiGPO及其他基线方法,提升了Agent的性能。
📝 摘要(中文)
长程LLM Agent可以受益于可复用的技能,但现有的基于技能的方法通常依赖于训练期间的外部技能生成器或推理时的持久技能检索,从而增加了工程复杂性、上下文长度和部署延迟。我们提出了一种自内部化强化学习与内在技能(SIRI)的三阶段框架,该框架使Agent能够在没有外部技能生成器或推理时技能库的情况下发现、验证和内部化技能。SIRI首先使用GiGPO预热策略,以获得基本的交互能力并收集成功的无技能轨迹。然后,它执行自技能挖掘,当前策略从其自身成功的普通rollout中总结出紧凑的技能,并通过配对的技能增强和无技能rollout来验证它们。最后,SIRI使用轨迹级效用和动作级优势将有益的技能引导动作token提炼到普通策略中。在推理时,Agent仅使用原始提示运行。在ALFWorld和WebShop上使用Qwen2.5-7B-Instruct,SIRI将GiGPO在ALFWorld上的性能从0.908提高到0.930,在WebShop上的性能从0.728提高到0.813,优于基于提示、基于RL和记忆增强的基线。进一步的分析表明,我们的自挖掘策略可以达到与使用闭源大型模型进行蒸馏相当的性能。我们的代码可在https://github.com/kirito618/SIRI获得。
🔬 方法详解
问题定义:现有方法在训练LLM Agent时,依赖外部技能生成器或推理时的技能库,导致工程复杂性增加、上下文长度变长以及部署延迟增大。这些方法未能充分利用Agent自身在交互过程中学习到的有效技能,并且增加了额外的资源依赖。
核心思路:SIRI的核心思路是让Agent通过自我探索和学习,从自身成功的经验中提取并内化有用的技能。通过自技能挖掘、验证和蒸馏,Agent可以逐步掌握并利用这些技能,而无需依赖外部资源。这种方法旨在提高Agent的自主性和效率。
技术框架:SIRI包含三个主要阶段: 1. 策略预热 (Policy Warm-up):使用GiGPO等方法预训练Agent,使其具备基本的交互能力,并收集成功的无技能轨迹。 2. 自技能挖掘 (Self-Skill Mining):Agent从自身成功的轨迹中提取紧凑的技能表示,并通过配对的技能增强和无技能rollout来验证这些技能的有效性。 3. 技能蒸馏 (Skill Distillation):将有益的技能引导动作token提炼到原始策略中,使用轨迹级效用和动作级优势来指导蒸馏过程。
关键创新:SIRI的关键创新在于其完全自给自足的技能学习框架。与依赖外部技能生成器或技能库的方法不同,SIRI通过自技能挖掘、验证和蒸馏,使Agent能够自主地学习和利用技能。这种方法降低了对外部资源的依赖,并提高了Agent的自主性和适应性。
关键设计: * 自技能挖掘:使用聚类算法或序列模型从成功轨迹中提取技能表示。 * 技能验证:通过比较技能增强和无技能rollout的性能来评估技能的有效性。 * 技能蒸馏:使用轨迹级效用和动作级优势作为权重,将技能引导动作token提炼到原始策略中。损失函数包括模仿学习损失和策略梯度损失。
🖼️ 关键图片
📊 实验亮点
SIRI在ALFWorld和WebShop任务上取得了显著的性能提升。在ALFWorld上,SIRI将GiGPO的性能从0.908提高到0.930。在WebShop上,SIRI将GiGPO的性能从0.728提高到0.813。SIRI的自挖掘策略可以达到与使用闭源大型模型进行蒸馏相当的性能,证明了其有效性和竞争力。
🎯 应用场景
SIRI具有广泛的应用潜力,可用于训练各种LLM Agent,例如游戏Agent、对话Agent和任务型Agent。通过自主学习和内化技能,Agent可以更有效地完成复杂任务,提高交互效率和用户体验。该方法还可以应用于机器人控制、自动化系统等领域,提升系统的智能化水平。
📄 摘要(原文)
Long-horizon LLM agents can benefit from reusable skills, yet existing skill-based methods often rely on external skill generators during training or persistent skill retrieval at inference, increasing engineering complexity, context length, and deployment latency. We propose Self-Internalizing Reinforcement learning with Intrinsic skills (SIRI), a three-phase framework that enables agents to discover, validate, and internalize skills without external skill generators or inference-time skill banks. SIRI first warms up the policy with GiGPO to acquire basic interaction ability and collect successful skill-free trajectories. It then performs self-skill mining, where the current policy summarizes compact skills from its own successful plain rollouts and validates them through paired skill-augmented and skill-free rollouts. Finally, SIRI distills only beneficial skill-guided action tokens into the plain policy using trajectory-level utility and action-level advantage. At inference, the agent runs with the original prompt only. On ALFWorld and WebShop with Qwen2.5-7B-Instruct, SIRI improves GiGPO from 0.908 to 0.930 on ALFWorld and from 0.728 to 0.813 on WebShop, outperforming prompt-based, RL-based, and memory-augmented baselines. Further analysis shows that our self-mining strategy can achieve performance comparable to distillation with closed-source large model. Our code is available at https://github.com/kirito618/SIRI.