Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning
作者: Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng
分类: cs.LG, cs.CL
发布日期: 2026-05-11
备注: Implementation code is available at https://github.com/ejhshen/SLIM
💡 一句话要点
提出动态技能生命周期管理框架SLIM,优化智能体强化学习中的技能集演化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 智能体强化学习 技能生命周期管理 动态技能优化 大型语言模型 策略学习 知识检索
📋 核心要点
- 现有方法假设技能要么无限累积导致冗余,要么完全内化导致推理能力受限,忽视了技能贡献的动态性和任务依赖性。
- SLIM框架将技能集视为动态优化变量,通过留一法评估边际贡献,并实施保留、淘汰与扩展的生命周期管理策略。
- 实验证明SLIM在ALFWorld和SearchQA任务中显著提升了性能,验证了外部技能与策略内化协同工作的有效性。
📝 摘要(中文)
大型语言模型智能体日益依赖外部技能来解决复杂任务,这些技能作为模块化单元扩展了模型参数化记忆之外的能力。现有方法通常假设外部技能要么作为持久性指导不断累积,要么被内化到策略中,最终导致零技能推理。本文认为这种假设过于严苛,因为在有限的参数容量下,且各技能边际贡献不均,最优的主动技能集应是随任务和阶段变化的非单调过程。为此,我们提出了SLIM(动态技能生命周期管理)框架,将主动外部技能集视为与策略学习联合更新的动态优化变量。SLIM通过“留一法”验证评估每个技能的边际贡献,并执行保留、淘汰和扩展三种生命周期操作。在ALFWorld和SearchQA上的实验表明,SLIM平均性能优于最佳基线7.1个百分点,证明了策略学习与外部技能保留并非互斥,SLIM为基于技能的智能体强化学习提供了一种更通用的范式。
🔬 方法详解
问题定义:现有智能体强化学习中,技能管理往往陷入“全保留”导致的上下文冗余或“全内化”导致的泛化能力下降。论文旨在解决如何根据任务阶段和技能贡献度,动态调整最优外部技能集的问题。
核心思路:将技能集视为动态优化变量,通过量化技能的边际贡献,实现技能的按需保留、淘汰与扩展,从而在有限的上下文窗口和参数容量下实现最优的智能体性能。
技术框架:SLIM框架包含三个核心阶段:首先是技能贡献评估,利用“留一法”(Leave-one-skill-out)计算各技能对当前任务的边际增益;其次是生命周期决策,基于评估结果执行保留高价值技能、淘汰低贡献技能;最后是能力覆盖扩展,当智能体在任务中持续失败时,自动扩充技能库以覆盖缺失的能力。
关键创新:引入了动态生命周期管理机制,打破了传统方法中技能集静态不变的限制,实现了策略学习与外部技能库的联合优化,使智能体能够根据任务需求自适应调整知识来源。
关键设计:核心在于边际贡献的量化评估指标,以及基于任务失败反馈的触发式技能扩展机制。该设计允许模型在训练过程中动态平衡“内化知识”与“外部检索知识”的权重,从而实现更高效的资源分配。
🖼️ 关键图片
📊 实验亮点
实验结果显示,SLIM在ALFWorld和SearchQA基准测试中表现卓越,平均性能较现有最优基线提升了7.1个百分点。研究进一步揭示了策略内化与外部技能保留的互补关系,证明了SLIM能够有效识别并保留关键技能,同时淘汰冗余信息,从而在复杂任务中实现更优的泛化表现。
🎯 应用场景
该研究适用于需要处理复杂长程任务的智能体系统,如自动化办公助手、复杂环境下的机器人导航、以及需要动态知识库支持的专业领域问答系统。其动态管理机制能显著提升资源受限环境下的智能体推理效率与任务成功率,具有广泛的工业应用前景。
📄 摘要(原文)
Large language model agents increasingly rely on external skills to solve complex tasks, where skills act as modular units that extend their capabilities beyond what parametric memory alone supports. Existing methods assume external skills either accumulate as persistent guidance or internalized into the policy, eventually leading to zero-skill inference. We argue this assumption is overly restrictive, since with limited parametric capacity and uneven marginal contribution across skills, the optimal active skill set is non-monotonic, task- and stage-dependent. In this work, we propose SLIM, a framework of dynamic Skill LIfecycle Management for agentic reinforcement learning (RL), which treats the active external skill set as a dynamic optimization variable jointly updated with policy learning. Specifically, SLIM estimates each active skill's marginal external contribution through leave-one-skill-out validation, then applies three lifecycle operations: retaining high-value skills, retiring skills whose contribution becomes negligible after sufficient exposure, and expanding the skill bank when persistent failures reveal missing capability coverage. Experiments show that SLIM outperforms the best baselines by an average of 7.1% points across ALFWorld and SearchQA. Results further indicate that policy learning and external skill retention are not mutually exclusive: some skills are absorbed into the policy, while others continue to provide external value, supporting SLIM as a more general paradigm for skill-based agentic RL.