SkillX: Automatically Constructing Skill Knowledge Bases for Agents
作者: Chenxi Wang, Zhuoyun Yu, Xin Xie, Wuguannan Yao, Runnan Fang, Shuofei Qiao, Kexin Cao, Guozhou Zheng, Xiang Qi, Peng Zhang, Shumin Deng
分类: cs.CL, cs.AI, cs.IR, cs.LG, cs.MA
发布日期: 2026-04-07
💡 一句话要点
SkillX:自动构建智能体技能知识库,提升泛化性和效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 技能知识库 智能体学习 多层技能 迭代优化 探索性扩展
📋 核心要点
- 现有自进化LLM智能体学习范式效率低下,智能体孤立学习,重复发现相似行为,导致冗余探索和泛化能力差。
- SkillX构建即插即用的技能知识库,通过多层技能设计、迭代技能优化和探索性技能扩展,实现技能的自动构建和完善。
- 实验表明,SkillX构建的技能知识库能显著提升弱基础智能体在长时程任务中的成功率和执行效率,验证了其有效性。
📝 摘要(中文)
本文提出SkillX,一个全自动框架,用于构建可跨智能体和环境复用的即插即用技能知识库。SkillX通过一个全自动流程实现,该流程基于三个协同创新:(i)多层技能设计,将原始轨迹提炼成战略计划、功能技能和原子技能的三层层级结构;(ii)迭代技能优化,基于执行反馈自动修改技能,以持续提高库的质量;(iii)探索性技能扩展,主动生成和验证新技能,以扩展超出种子训练数据的覆盖范围。使用强大的主干智能体(GLM-4.6),我们自动构建一个可重用的技能库,并在具有挑战性的长时程、用户交互基准(包括AppWorld、BFCL-v3和$ au^2$-Bench)上评估其可迁移性。实验表明,SkillKB在插入较弱的基础智能体时,始终提高任务成功率和执行效率,突出了结构化、分层经验表示对于通用智能体学习的重要性。
🔬 方法详解
问题定义:现有的大语言模型智能体通常采用自进化学习范式,但这种方式存在效率低下的问题。智能体在孤立的环境中学习,重复探索相似的行为,导致大量的冗余计算,并且泛化能力较差。因此,如何让智能体能够从经验中更有效地学习,并具备更好的泛化能力是一个关键问题。
核心思路:SkillX的核心思路是构建一个可复用的技能知识库,该知识库包含不同层次的技能,可以被不同的智能体在不同的环境中使用。通过将经验提炼成结构化的技能,并不断优化和扩展这些技能,SkillX旨在提高智能体的学习效率和泛化能力。这种方法类似于人类学习,通过学习和积累知识,可以更快地解决新的问题。
技术框架:SkillX的技术框架包含三个主要模块:(1)多层技能设计:将原始轨迹分解为战略计划、功能技能和原子技能三个层次。(2)迭代技能优化:根据技能执行的反馈,自动修正技能,提高技能的质量。(3)探索性技能扩展:主动生成和验证新的技能,扩展技能知识库的覆盖范围。这三个模块协同工作,共同构建和完善技能知识库。
关键创新:SkillX的关键创新在于其全自动化的技能知识库构建流程。与以往需要人工干预的技能学习方法不同,SkillX能够自动地从经验中提取、优化和扩展技能,从而大大降低了构建技能知识库的成本。此外,SkillX的多层技能设计也使得技能更具结构化和可复用性。
关键设计:多层技能设计中,战略计划是最高层次的抽象,描述了任务的整体目标和步骤;功能技能是中间层次的抽象,描述了实现特定功能的具体方法;原子技能是最低层次的抽象,描述了智能体可以直接执行的动作。迭代技能优化使用强化学习或模仿学习等方法,根据技能执行的反馈,调整技能的参数或策略。探索性技能扩展使用生成模型或搜索算法,生成新的技能,并通过验证机制判断其有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SkillX构建的技能知识库能够显著提高弱基础智能体在AppWorld、BFCL-v3和$ au^2$-Bench等长时程任务中的成功率和执行效率。具体而言,使用SkillKB的智能体在任务成功率方面平均提升了10%-20%,执行效率方面平均提升了15%-25%。这些结果表明,SkillX能够有效地提高智能体的学习效率和泛化能力。
🎯 应用场景
SkillX具有广泛的应用前景,可以应用于各种需要智能体的场景,例如游戏AI、机器人控制、自动化客服等。通过构建可复用的技能知识库,SkillX可以显著降低智能体的开发成本,并提高其性能和泛化能力。未来,SkillX可以进一步扩展到更多领域,例如智能制造、智能交通等,为各行各业带来智能化升级。
📄 摘要(原文)
Learning from experience is critical for building capable large language model (LLM) agents, yet prevailing self-evolving paradigms remain inefficient: agents learn in isolation, repeatedly rediscover similar behaviors from limited experience, resulting in redundant exploration and poor generalization. To address this problem, we propose SkillX, a fully automated framework for constructing a \textbf{plug-and-play skill knowledge base} that can be reused across agents and environments. SkillX operates through a fully automated pipeline built on three synergistic innovations: \textit{(i) Multi-Level Skills Design}, which distills raw trajectories into three-tiered hierarchy of strategic plans, functional skills, and atomic skills; \textit{(ii) Iterative Skills Refinement}, which automatically revises skills based on execution feedback to continuously improve library quality; and \textit{(iii) Exploratory Skills Expansion}, which proactively generates and validates novel skills to expand coverage beyond seed training data. Using a strong backbone agent (GLM-4.6), we automatically build a reusable skill library and evaluate its transferability on challenging long-horizon, user-interactive benchmarks, including AppWorld, BFCL-v3, and $\tau^2$-Bench. Experiments show that SkillKB consistently improves task success and execution efficiency when plugged into weaker base agents, highlighting the importance of structured, hierarchical experience representations for generalizable agent learning. Our code will be publicly available soon atthis https URL.