Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

📄 arXiv: 2605.06130v2 📥 PDF

作者: Yaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang

分类: cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)


💡 一句话要点

Skill1:通过强化学习统一进化技能增强型智能体,解决技能选择、利用和提炼的协同优化问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 技能学习 智能体 技能选择 技能提炼

📋 核心要点

  1. 现有方法在维护技能库时,技能的选择、利用和提炼能力优化相互孤立,导致部分且冲突的进化。
  2. Skill1训练单个策略,使其共同进化技能选择、利用和提炼,所有学习均来自单一任务结果信号,从而优化技能库。
  3. Skill1在ALFWorld和WebShop上超越现有技能方法和强化学习基线,证明了共同进化技能策略的有效性。

📝 摘要(中文)

本文提出Skill1框架,旨在通过训练单个策略,共同进化技能选择、利用和提炼能力,以实现共享的任务目标。该策略生成查询以搜索技能库,对候选技能进行重排序以选择最佳技能,在所选技能的条件下解决任务,并从轨迹中提炼新技能。所有学习都源于单一的任务结果信号,其低频趋势反映技能选择的贡献,而高频变化反映技能提炼的贡献。在ALFWorld和WebShop上的实验表明,Skill1优于现有的基于技能和强化学习的基线方法。训练动态证实了三种能力的共同进化,消融实验表明,移除任何信用信号都会降低进化效果。

🔬 方法详解

问题定义:论文旨在解决语言模型智能体在利用和维护技能库时所面临的技能选择、利用和提炼三个能力之间缺乏协同优化的问题。现有方法通常孤立地优化这些能力,或者使用不同的奖励来源,导致各个能力进化方向不一致,影响整体性能。例如,技能选择可能倾向于选择易于利用但对长期任务目标贡献不大的技能,或者提炼出的技能缺乏泛化性,难以在不同任务中复用。

核心思路:Skill1的核心思路是将技能选择、利用和提炼三个能力整合到一个统一的强化学习策略中,并使用单一的任务结果信号来驱动所有能力的共同进化。通过这种方式,智能体可以学习到一种能够根据任务需求选择合适的技能、有效利用技能来解决任务,并从任务经验中提炼出有用的新技能的综合策略。核心在于通过共享的奖励信号,使得三个能力相互促进,而不是相互竞争。

技术框架:Skill1的技术框架主要包括以下几个模块:1) 技能库:存储预训练或从经验中提炼出的技能;2) 策略网络:接收任务描述和技能库信息作为输入,输出技能查询向量和动作;3) 技能选择模块:使用查询向量从技能库中检索候选技能,并对这些技能进行重排序和选择;4) 技能利用模块:在所选技能的条件下执行动作,与环境交互;5) 技能提炼模块:从智能体的轨迹中提取信息,生成新的技能,并将其添加到技能库中。整个流程通过强化学习进行训练,目标是最大化任务结果奖励。

关键创新:Skill1最重要的技术创新点在于使用单一的任务结果信号来共同驱动技能选择、利用和提炼三个能力的进化。具体来说,任务结果信号的低频趋势用于衡量技能选择的贡献,而高频变化用于衡量技能提炼的贡献。这种分离奖励信号的方法避免了为每个能力单独设计奖励函数的需求,从而简化了训练过程,并促进了各个能力之间的协同进化。与现有方法相比,Skill1避免了局部优化和奖励冲突的问题,能够更有效地利用技能库来解决复杂任务。

关键设计:Skill1的关键设计包括:1) 技能查询向量的生成方式,如何将任务描述和技能库信息编码成有效的查询向量;2) 技能重排序算法,如何根据任务需求对候选技能进行排序;3) 技能提炼算法,如何从轨迹中提取有用的信息并生成泛化性强的技能;4) 奖励信号的分离方法,如何将任务结果信号分解为低频趋势和高频变化;5) 策略网络的结构和训练方法,如何保证策略网络能够有效地学习到技能选择、利用和提炼的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Skill1在ALFWorld和WebShop两个任务上都显著优于现有的基于技能和强化学习的基线方法。例如,在ALFWorld任务上,Skill1的性能提升超过了10%。训练动态分析表明,技能选择、利用和提炼三个能力在训练过程中实现了共同进化。消融实验表明,移除任何信用信号都会显著降低进化效果,进一步验证了共同进化策略的重要性。

🎯 应用场景

Skill1框架具有广泛的应用前景,可用于开发更智能、更自主的智能体。例如,可应用于机器人控制、游戏AI、自然语言处理等领域。通过不断学习和积累技能,智能体可以更好地适应不同的任务环境,提高解决问题的能力。特别是在需要持续学习和适应新任务的场景下,Skill1具有显著优势。

📄 摘要(原文)

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.