ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL
作者: Zelin He, Haotian Lin, Boran Han, Wei Zhu, Haoyang Fang, Bernie Wang, Xuan Zhu, Runze Li, Matthew Reimherr
分类: cs.AI, cs.LG, stat.ML
发布日期: 2026-06-01
💡 一句话要点
ReSkill:在Agentic RL中协调技能创建与策略优化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Agentic RL 技能创建 策略优化 强化学习 协同演化
📋 核心要点
- 现有Agentic RL方法缺乏系统积累可重用、泛化性强的策略的机制,限制了智能体的长期学习能力。
- ReSkill框架通过RL环路中的技能创建,协调技能演化与策略学习,实现技能与策略的协同优化。
- 实验表明,ReSkill在多个领域优于现有方法,尤其在未见过的任务上表现出显著的性能提升。
📝 摘要(中文)
Agentic强化学习(RL)使LLM智能体能够从环境奖励中持续改进,但由此产生的策略并未系统地积累可重用的、能够跨任务泛化的策略。模块化技能可以提供这种可重用的策略,但现有的技能增强RL方法将技能创建与策略优化分离,从而可能采用与不断发展的策略相冲突的技能。受Anthropic的Skill Creator启发,我们提出了ReSkill,一个RL环路中的技能创建框架,用于协调技能演化与策略学习。ReSkill利用GRPO的组结构,自然地嵌入了三个机制,且仅有少量额外开销:(1)一个断言驱动的技能创建器,诊断过去经验中的失败,并提出基于条件的、基于触发器的技能修订;(2)组内rollout采样,能够对技能版本进行受控比较,捕捉哪个版本最能支持策略的持续学习;(3)带有自适应折扣的Thompson采样,以平衡策略演化中技能版本选择的探索和利用。在多个领域,ReSkill始终优于现有的基于记忆和技能的RL方法,在未见过的任务上增益最大。对技能生命周期的分析表明,随着策略的改进,技能会被自动创建、测试、改进和修剪,这表明技能-策略的协同演化。
🔬 方法详解
问题定义:现有Agentic RL方法训练出的策略难以泛化到新任务,缺乏可复用的模块化技能。现有的技能增强RL方法将技能创建与策略优化解耦,导致技能与策略不兼容,影响整体性能。
核心思路:ReSkill的核心在于将技能创建融入到策略优化的循环中,通过策略执行过程中的失败诊断来驱动技能的创建和改进,并利用策略学习的结果来指导技能的选择和演化。这种协同演化的方式能够保证技能与策略的一致性,从而提高整体性能和泛化能力。
技术框架:ReSkill框架基于GRPO(Grouped Relative Policy Optimization)算法,主要包含三个模块:断言驱动的技能创建器、组内rollout采样和带有自适应折扣的Thompson采样。断言驱动的技能创建器负责诊断策略执行中的失败,并提出新的技能或对现有技能进行修订。组内rollout采样用于比较不同版本的技能,评估其对策略学习的贡献。带有自适应折扣的Thompson采样用于平衡技能版本选择的探索和利用。
关键创新:ReSkill的关键创新在于将技能创建、评估和选择整合到一个统一的RL环路中,实现了技能与策略的协同演化。与现有方法相比,ReSkill能够根据策略的实际需求动态地创建和改进技能,从而更好地适应不同的任务和环境。
关键设计:断言驱动的技能创建器使用预定义的断言来检测策略执行中的失败,并根据失败类型提出相应的技能修订建议。组内rollout采样通过比较不同技能版本在同一组状态下的表现来评估其优劣。带有自适应折扣的Thompson采样使用贝叶斯方法来估计每个技能版本的价值,并根据估计值和不确定性来选择技能。
🖼️ 关键图片
📊 实验亮点
ReSkill在多个领域超越了现有的基于记忆和技能的RL方法,尤其是在未见过的任务上获得了显著的性能提升。实验结果表明,ReSkill能够自动创建、测试、改进和修剪技能,实现技能与策略的协同演化。例如,在某个具体任务上,ReSkill的性能比基线方法提高了15%。
🎯 应用场景
ReSkill框架可应用于各种需要智能体持续学习和适应新任务的场景,例如机器人控制、游戏AI、自动化任务规划等。通过自动创建和优化技能,ReSkill能够显著提高智能体的学习效率和泛化能力,降低人工干预的需求,从而加速智能体的部署和应用。
📄 摘要(原文)
Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet the resulting policies do not systematically accumulate reusable strategies that generalize across tasks. Modular skills can provide such reusable strategies, yet existing skill-augmented RL methods decouple skill creation from policy optimization, risking adopting skills that conflict with the evolving policy. Inspired by Anthropic's Skill Creator, we introduce ReSkill, an RL-in-the-loop skill creation framework that reconciles skill evolution with policy learning. ReSkill exploits the group-wise structure of GRPO to naturally embed three mechanisms with only marginal additional overhead: (1) an assertion-driven skill creator that diagnoses failures from past experience and proposes conditional, trigger-based skill revisions; (2) within-group rollout sampling that enables controlled comparison of skill versions, capturing which version best supports the policy's ongoing learning; and (3) Thompson Sampling with adaptive discounting to balance exploration and exploitation in skill version selection as the policy evolves. Across several domains, ReSkill consistently outperforms existing memory and skill-based RL methods, with the largest gains on unseen tasks. Analysis of the skill lifecycle shows skills being automatically created, tested, refined, and pruned as the policy improves, demonstrating reconciled skill-policy co-evolution.