Memento-Skills: Let Agents Design Agents

📄 arXiv: 2603.18743v1 📥 PDF

作者: Huichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-03-19

备注: Memento-Skills Technical Report

🔗 代码/项目: GITHUB


💡 一句话要点

Memento-Skills:提出一种通用、可持续学习的LLM Agent系统,实现Agent的自主设计。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 自主设计 持续学习 技能库 读-写反思学习

📋 核心要点

  1. 现有Agent设计依赖人工,难以适应新任务和持续学习,限制了通用Agent的发展。
  2. Memento-Skills通过可重用技能和读-写反思学习机制,使Agent能够自主设计和改进自身,实现持续学习。
  3. 实验表明,Memento-Skills在多个基准测试中显著提升了Agent的性能,验证了其有效性。

📝 摘要(中文)

本文介绍了一种名为Memento-Skills的通用、可持续学习的LLM Agent系统,该系统充当“Agent设计Agent”的角色:它通过经验自主构建、调整和改进特定任务的Agent。该系统基于带有状态提示的基于记忆的强化学习框架,其中可重用的技能(存储为结构化的markdown文件)充当持久的、不断发展的记忆。这些技能编码了行为和上下文,使Agent能够在交互过程中传递知识。从简单的基本技能(如Web搜索和终端操作)开始,Agent通过Memento 2中引入的读-写反思学习机制不断改进。在“读”阶段,行为可训练的技能路由器根据当前状态提示选择最相关的技能;在“写”阶段,Agent根据新的经验更新和扩展其技能库。这种闭环设计实现了无需更新LLM参数的持续学习,因为所有适应都是通过外部化技能和提示的演变来实现的。与依赖于人工设计的Agent的先前方法不同,Memento-Skills使通用Agent能够端到端地为新任务设计Agent。通过迭代的技能生成和改进,系统逐步提高自身的能力。在General AI Assistants基准测试和Humanity's Last Exam上的实验表明,系统取得了持续的收益,在总体准确性方面分别实现了26.2%和116.2%的相对提升。

🔬 方法详解

问题定义:现有Agent设计方法通常依赖于人工设计的规则或模型,难以泛化到新的任务,并且缺乏持续学习的能力。这些方法无法充分利用LLM的潜力,构建真正通用的Agent。因此,需要一种能够自主设计、适应和改进Agent的系统,以应对不断变化的任务需求。

核心思路:Memento-Skills的核心思路是将Agent设计过程本身交给Agent来完成。通过构建一个可重用的技能库,并利用读-写反思学习机制,Agent可以根据当前任务的状态提示选择合适的技能,并根据经验更新和扩展技能库。这种闭环设计使得Agent能够持续学习和改进,而无需更新LLM的参数。

技术框架:Memento-Skills的整体架构包括以下几个主要模块:1) 状态提示模块:用于编码当前任务的状态和上下文信息。2) 技能库:存储可重用的技能,每个技能都包含行为和上下文信息。3) 技能路由器:根据状态提示选择最相关的技能。4) 读-写反思学习模块:在“读”阶段,技能路由器选择技能;在“写”阶段,Agent根据经验更新和扩展技能库。

关键创新:Memento-Skills最重要的技术创新点在于其自主Agent设计能力和持续学习机制。与现有方法相比,Memento-Skills无需人工干预即可为新任务设计Agent,并且能够通过经验不断改进自身。这种方法充分利用了LLM的生成能力和记忆能力,构建了更加通用和智能的Agent。

关键设计:技能库中的技能以结构化的markdown文件存储,方便Agent读取和修改。读-写反思学习模块采用强化学习方法,根据任务的奖励信号来更新技能库。技能路由器的训练目标是最大化任务的成功率,并鼓励Agent探索新的技能组合。具体参数设置和损失函数细节在论文中未详细说明,属于未知信息。

📊 实验亮点

Memento-Skills在General AI Assistants基准测试和Humanity's Last Exam上取得了显著的性能提升,总体准确性分别提高了26.2%和116.2%。这些结果表明,Memento-Skills能够有效地学习和改进Agent的性能,并且具有良好的泛化能力。具体的实验设置和对比基线在论文中有详细描述。

🎯 应用场景

Memento-Skills具有广泛的应用前景,例如智能助手、自动化运维、科学研究等领域。它可以用于构建能够自主完成复杂任务的Agent,提高工作效率和质量。未来,Memento-Skills可以与其他技术相结合,例如机器人技术、物联网等,实现更加智能化和自动化的应用。

📄 摘要(原文)

We introduce \emph{Memento-Skills}, a generalist, continually-learnable LLM agent system that functions as an \emph{agent-designing agent}: it autonomously constructs, adapts, and improves task-specific agents through experience. The system is built on a memory-based reinforcement learning framework with \emph{stateful prompts}, where reusable skills (stored as structured markdown files) serve as persistent, evolving memory. These skills encode both behaviour and context, enabling the agent to carry forward knowledge across interactions. Starting from simple elementary skills (like Web search and terminal operations), the agent continually improves via the \emph{Read--Write Reflective Learning} mechanism introduced in \emph{Memento~2}~\cite{wang2025memento2}. In the \emph{read} phase, a behaviour-trainable skill router selects the most relevant skill conditioned on the current stateful prompt; in the \emph{write} phase, the agent updates and expands its skill library based on new experience. This closed-loop design enables \emph{continual learning without updating LLM parameters}, as all adaptation is realised through the evolution of externalised skills and prompts. Unlike prior approaches that rely on human-designed agents, Memento-Skills enables a generalist agent to \emph{design agents end-to-end} for new tasks. Through iterative skill generation and refinement, the system progressively improves its own capabilities. Experiments on the \emph{General AI Assistants} benchmark and \emph{Humanity's Last Exam} demonstrate sustained gains, achieving 26.2\% and 116.2\% relative improvements in overall accuracy, respectively. Code is available at https://github.com/Memento-Teams/Memento-Skills.