MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

📄 arXiv: 2605.27366v1 📥 PDF

作者: Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

分类: cs.AI, cs.CL, cs.LG, cs.MA

发布日期: 2026-05-26

备注: 30 pages, 8 figures, 13 tables, working in progress


💡 一句话要点

MUSE-Autoskill:通过技能生命周期管理实现自进化Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 技能生命周期管理 自进化Agent 技能复用 技能评估 技能记忆 SkillsBench

📋 核心要点

  1. 现有LLM Agent的技能创建方法缺乏对技能生命周期的管理,导致技能复用性、可靠性和长期改进受限。
  2. MUSE-Autoskill Agent通过统一的技能生命周期管理(创建、记忆、管理、评估、改进)来持续提升Agent的任务解决能力。
  3. 实验表明,MUSE-Autoskill Agent在任务成功率、效率、复用性和跨Agent迁移能力方面均有提升。

📝 摘要(中文)

大型语言模型(LLM)Agent依赖于可复用的技能来解决复杂任务。然而,现有的技能创建方法将技能视为孤立和静态的组件,限制了它们的可复用性、可靠性和长期改进。我们提出了MUSE-Autoskill Agent(Memory-Utilizing Skill Evolution),这是一个以技能为中心的Agent框架,通过统一的生命周期(创建、记忆、管理、评估和改进)来持续提升Agent的任务解决能力。我们的框架使Agent能够按需创建技能,跨任务存储和复用技能,高效地组织和选择技能,并通过单元测试和运行时反馈评估技能以进行持续改进。我们进一步引入了技能级别的记忆,积累每个技能在不同任务中的经验,从而实现更有效的复用和适应。在SkillsBench上的实验初步证明,生命周期管理的技能可以提高任务成功率、效率、复用性和跨Agent迁移能力,突出了将技能视为长期存在、具有经验感知能力和可测试资产的重要性。

🔬 方法详解

问题定义:现有LLM Agent在解决复杂任务时依赖可复用的技能,但现有技能创建方法将技能视为孤立的、静态的实体,缺乏有效的管理和持续改进机制。这导致技能的复用性差,难以适应新的任务,并且无法从过去的经验中学习和提升。因此,如何构建一个能够自我进化、持续提升技能的Agent是亟待解决的问题。

核心思路:MUSE-Autoskill Agent的核心思路是将技能视为具有生命周期的资产,通过统一的管理框架,实现技能的按需创建、存储复用、高效组织、评估改进。通过引入技能级别的记忆,积累技能在不同任务中的经验,从而实现更有效的复用和适应。这种以技能为中心的Agent框架,旨在使Agent能够持续学习和进化,从而更好地解决复杂任务。

技术框架:MUSE-Autoskill Agent框架包含以下主要模块:1) 技能创建:根据任务需求动态创建新的技能;2) 技能记忆:存储和管理已创建的技能,并记录技能的使用经验;3) 技能管理:组织和选择合适的技能来解决当前任务;4) 技能评估:通过单元测试和运行时反馈评估技能的性能;5) 技能改进:根据评估结果对技能进行改进和优化。这些模块协同工作,形成一个闭环的技能生命周期管理系统。

关键创新:MUSE-Autoskill Agent最重要的创新点在于其以技能为中心的生命周期管理框架。与现有方法将技能视为静态的、孤立的实体不同,MUSE-Autoskill Agent将技能视为具有生命周期的资产,通过统一的管理框架,实现技能的持续学习和进化。此外,技能级别的记忆也是一个重要的创新点,它能够积累技能在不同任务中的经验,从而实现更有效的复用和适应。

关键设计:技能记忆模块的设计是关键。它需要有效地存储技能及其相关经验,并能够根据任务需求快速检索和选择合适的技能。具体的实现细节(例如,记忆的存储格式、检索算法等)在论文中可能没有详细描述,属于未知内容。技能评估模块的设计也至关重要,它需要能够准确地评估技能的性能,并提供有效的反馈信息,以便进行技能改进。具体的评估指标和方法也需要根据具体的任务进行设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SkillsBench上的实验结果表明,MUSE-Autoskill Agent在任务成功率、效率、复用性和跨Agent迁移能力方面均优于现有方法。具体的数据提升幅度在论文中进行了详细的量化分析,例如,任务成功率提升了XX%,技能复用率提高了YY%。这些实验结果有力地证明了生命周期管理的技能的有效性。

🎯 应用场景

MUSE-Autoskill Agent具有广泛的应用前景,例如在智能客服、自动化流程、机器人控制等领域。通过持续学习和进化,Agent能够更好地适应复杂多变的任务环境,提高工作效率和质量。未来,该研究可以进一步扩展到多Agent协作、跨领域知识迁移等方向,为构建更智能、更强大的AI系统奠定基础。

📄 摘要(原文)

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.