AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement

📄 arXiv: 2601.22758v1 📥 PDF

作者: Libin Qiu, Zhirong Gao, Junfu Chen, Yuhang Ye, Weizhi Huang, Xiaobo Xue, Wenkai Qiu, Shuo Tang

分类: cs.AI

发布日期: 2026-01-30

备注: 8 pages, 3 figures, 3 tables


💡 一句话要点

AutoRefine:通过轨迹提炼可复用经验,持续优化LLM Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 持续学习 经验复用 程序性任务 知识库维护

📋 核心要点

  1. 现有LLM Agent难以从经验中学习,无法有效复用过往知识解决新任务,尤其在程序性任务上表现不足。
  2. AutoRefine框架从Agent执行轨迹中提取程序性子Agent和静态知识技能模式,实现经验的双重形式表示。
  3. 实验表明,AutoRefine在多个任务上显著提升了Agent的性能和效率,并超越了人工设计的系统。

📝 摘要(中文)

大型语言模型Agent通常无法从经验中积累知识,而是将每个任务视为独立的挑战。现有方法将经验提取为扁平化的文本知识,无法捕捉复杂子任务的程序逻辑。它们也缺乏维护机制,导致经验库随着经验积累而退化。我们提出了AutoRefine,一个从Agent执行历史中提取和维护双重形式经验模式的框架。对于程序性子任务,我们提取具有独立推理和记忆的专用子Agent。对于静态知识,我们提取技能模式作为指导或代码片段。连续维护机制对模式进行评分、修剪和合并,以防止存储库退化。在ALFWorld、ScienceWorld和TravelPlanner上的评估表明,AutoRefine分别实现了98.4%、70.4%和27.1%的性能,并减少了20-73%的步骤。在TravelPlanner上,自动提取的性能超过了手动设计的系统(27.1% vs 12.1%),证明了其捕捉程序协调的能力。

🔬 方法详解

问题定义:现有的大型语言模型Agent在持续学习过程中,无法有效地积累和复用经验。它们通常将每个新任务视为一个独立的挑战,而忽略了先前任务中获得的知识和技能。特别是在处理需要复杂程序逻辑的子任务时,现有方法提取的扁平化文本知识难以捕捉其内在的程序性,导致Agent在类似任务上重复犯错。此外,随着经验的不断积累,缺乏维护机制的知识库会逐渐退化,降低Agent的整体性能。

核心思路:AutoRefine的核心思路是从Agent的执行轨迹中提取可复用的经验模式,并以双重形式进行表示:对于程序性子任务,提取具有独立推理和记忆的专用子Agent;对于静态知识,提取技能模式作为指导或代码片段。通过这种方式,AutoRefine能够更全面地捕捉Agent的经验,并将其转化为可复用的知识。同时,AutoRefine还引入了一种连续维护机制,用于对经验模式进行评分、修剪和合并,以防止知识库的退化。

技术框架:AutoRefine框架主要包含以下几个模块:1) 轨迹收集模块:负责收集Agent在执行任务过程中的轨迹数据,包括Agent的观察、行动和奖励等信息。2) 经验提取模块:从轨迹数据中提取经验模式,包括程序性子Agent和静态知识技能模式。3) 经验存储模块:将提取的经验模式存储到知识库中,并建立索引以便快速检索。4) 经验维护模块:对知识库中的经验模式进行评分、修剪和合并,以防止知识库的退化。5) 经验复用模块:在Agent执行新任务时,从知识库中检索相关的经验模式,并将其用于指导Agent的行动。

关键创新:AutoRefine的关键创新在于其双重形式的经验表示方法和连续维护机制。双重形式的经验表示方法能够更全面地捕捉Agent的经验,并将其转化为可复用的知识。连续维护机制能够有效地防止知识库的退化,保证Agent能够持续地从经验中学习。此外,AutoRefine还能够自动地从Agent的执行轨迹中提取经验模式,无需人工干预,降低了使用成本。

关键设计:AutoRefine的关键设计包括:1) 使用强化学习算法训练子Agent,使其能够独立地解决程序性子任务。2) 使用自然语言处理技术提取静态知识技能模式,并将其表示为指导或代码片段。3) 使用评分函数对经验模式进行评估,并根据评分结果进行修剪和合并。4) 使用索引结构加速经验模式的检索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoRefine在ALFWorld、ScienceWorld和TravelPlanner三个任务上进行了评估,分别取得了98.4%、70.4%和27.1%的性能,并减少了20-73%的步骤。尤其在TravelPlanner任务上,AutoRefine自动提取的性能超过了手动设计的系统(27.1% vs 12.1%),证明了其捕捉程序协调的能力。

🎯 应用场景

AutoRefine具有广泛的应用前景,可用于提升各种LLM Agent的性能和效率,例如游戏AI、智能助手、自动化客服等。通过持续学习和经验复用,Agent能够更好地适应复杂环境,完成各种任务。该研究对于实现更智能、更可靠的AI系统具有重要意义。

📄 摘要(原文)

Large language model agents often fail to accumulate knowledge from experience, treating each task as an independent challenge. Recent methods extract experience as flattened textual knowledge, which cannot capture procedural logic of complex subtasks. They also lack maintenance mechanisms, causing repository degradation as experience accumulates. We introduce AutoRefine, a framework that extracts and maintains dual-form Experience Patterns from agent execution histories. For procedural subtasks, we extract specialized subagents with independent reasoning and memory. For static knowledge, we extract skill patterns as guidelines or code snippets. A continuous maintenance mechanism scores, prunes, and merges patterns to prevent repository degradation. Evaluated on ALFWorld, ScienceWorld, and TravelPlanner, AutoRefine achieves 98.4%, 70.4%, and 27.1% respectively, with 20-73% step reductions. On TravelPlanner, automatic extraction exceeds manually designed systems (27.1% vs 12.1%), demonstrating its ability to capture procedural coordination.