SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs
作者: Xiaoyuan Li, Moxin Li, Keqin Bao, Yubo Ma, Wenjie Wang, Dayiheng Liu, Fuli Feng
分类: cs.CL
发布日期: 2026-05-12
备注: Under Review
💡 一句话要点
提出SkillGraph,通过演化技能图增强智能体强化学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 技能图 强化学习 技能复用 组合任务 智能体 知识图谱 多步决策
📋 核心要点
- 现有技能库缺乏技能间的结构化关系,导致智能体难以识别技能依赖和组合。
- SkillGraph将技能表示为有向图节点,边编码技能关系,从而指导多步决策。
- SkillGraph通过智能体轨迹和强化学习反馈持续更新技能图,实现技能库和策略的共同进化。
📝 摘要(中文)
技能库使大型语言模型智能体能够复用过去交互的经验,但现有技能库通常将技能存储为孤立的条目,仅通过语义相似性检索。这给组合任务带来了两个关键挑战。首先,智能体不仅要识别相关的技能,还要识别它们之间的依赖和构建关系。其次,这使得库维护变得困难,因为系统缺乏结构化的线索来决定何时应该合并、拆分或删除技能。我们提出了SKILLGRAPH,一个将可复用技能表示为有向图中节点的框架,其中类型化的边编码了前提条件、增强和共现关系。给定一个新任务,SKILLGRAPH不仅检索单个技能,还检索一个有序的技能子图,可以指导多步决策。该图从智能体轨迹和强化学习反馈中持续更新,从而允许技能库和智能体策略共同改进。在ALFWorld、WebShop和七个搜索增强的QA任务上的实验表明,SKILLGRAPH相对于内存增强的RL方法实现了最先进的性能,尤其是在需要组合多个技能的复杂任务上获得了显著的提升。
🔬 方法详解
问题定义:现有技能库将技能视为孤立的个体,忽略了技能之间的依赖关系和组合方式。这使得智能体在复杂任务中难以有效地利用技能库,尤其是在需要多个技能协同完成的任务中。此外,现有技能库的维护缺乏结构化信息,难以判断技能的冗余性或是否需要拆分、合并。
核心思路:SkillGraph的核心思想是将技能表示为图中的节点,节点之间的边表示技能之间的关系,例如前提条件、增强和共现关系。通过构建技能图,智能体可以检索到不仅是单个技能,而是一个有序的技能子图,从而指导多步决策过程。这种结构化的表示方式也方便了技能库的维护和更新。
技术框架:SkillGraph框架包含以下几个主要模块:1) 技能图构建模块:从智能体与环境的交互轨迹中提取技能,并根据技能之间的关系构建技能图。2) 技能图检索模块:给定一个新任务,该模块从技能图中检索相关的技能子图,并根据边的关系对技能进行排序。3) 策略学习模块:利用检索到的技能子图指导智能体的策略学习,通过强化学习算法优化策略。4) 技能图更新模块:根据智能体的反馈和轨迹,不断更新技能图,包括添加新技能、删除冗余技能、调整技能之间的关系等。
关键创新:SkillGraph的关键创新在于将技能表示为图结构,并利用图结构来指导智能体的决策过程。与传统的技能库方法相比,SkillGraph能够更好地捕捉技能之间的依赖关系和组合方式,从而提高智能体在复杂任务中的表现。此外,SkillGraph的技能图更新机制能够使技能库不断进化,适应新的任务和环境。
关键设计:技能图中的边类型包括:前提条件(prerequisite)、增强(enhancement)和共现(co-occurrence)。前提条件表示一个技能的执行需要另一个技能作为前提;增强表示一个技能可以提高另一个技能的性能;共现表示两个技能经常一起使用。技能图的更新采用强化学习的反馈信号,例如奖励和惩罚,来调整技能之间的关系强度。策略学习模块可以使用各种强化学习算法,例如Q-learning、SARSA或Actor-Critic方法。
🖼️ 关键图片
📊 实验亮点
SkillGraph在ALFWorld、WebShop和七个搜索增强的QA任务上取得了state-of-the-art的性能。尤其是在需要组合多个技能的复杂任务上,SkillGraph的性能提升尤为显著,表明其在处理复杂任务方面的优势。与内存增强的RL方法相比,SkillGraph能够更有效地利用过去的经验,提高学习效率。
🎯 应用场景
SkillGraph可应用于各种需要智能体进行复杂决策的任务,例如机器人操作、游戏AI、对话系统等。通过构建和维护技能图,智能体可以更好地复用过去的经验,提高学习效率和泛化能力。该研究对于开发更智能、更灵活的智能体具有重要意义。
📄 摘要(原文)
Skill libraries enable large language model agents to reuse experience from past interactions, but most existing libraries store skills as isolated entries and retrieve them only by semantic similarity. This leads to two key challenges for compositional tasks. Firstly, an agent must identify not only relevant skills but also how they depend on and build upon each other. Secondly, it also makes library maintenance difficult, since the system lacks structural cues for deciding when skills should be merged, split, or removed. We propose SKILLGRAPH, a framework that represents reusable skills as nodes in a directed graph, with typed edges encoding prerequisite, enhancement, and co-occurrence relations. Given a new task, SKILLGRAPH retrieves not just individual skills, but an ordered skill subgraph that can guide multi-step decision making. The graph is continuously updated from agent trajectories and reinforcement learning feedback, allowing both the skill library and the agent policy to improve together. Experiments on ALFWorld, WebShop, and seven search-augmented QA tasks show that SKILLGRAPH achieves state-of-the-art performance against memory-augmented RL methods, with especially large gains on complex tasks that require composing multiple skills.