Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

📄 arXiv: 2603.25158v1 📥 PDF

作者: Jingwei Ni, Yihao Liu, Xinpeng Liu, Yutao Sun, Mengyu Zhou, Pengyu Cheng, Dexin Wang, Xiaoxi Jiang, Guanjun Jiang

分类: cs.AI

发布日期: 2026-03-26

备注: Work in Progress


💡 一句话要点

Trace2Skill:通过轨迹局部学习提炼可迁移的Agent技能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Agent技能 轨迹学习 技能迁移 归纳推理

📋 核心要点

  1. 现有方法依赖手动编写或浅层参数知识,导致技能生成存在可扩展性瓶颈和泛化能力不足的问题。
  2. Trace2Skill通过并行子Agent分析轨迹,提取局部经验并分层整合,从而生成可迁移的领域特定技能。
  3. 实验表明,Trace2Skill在电子表格、VisionQA和数学推理等任务上显著优于现有基线,并具备跨模型迁移能力。

📝 摘要(中文)

为大型语言模型(LLM)Agent配备领域特定技能对于解决复杂任务至关重要。然而,手动编写技能存在严重的可扩展性瓶颈。相反,自动技能生成通常会产生脆弱或碎片化的结果,因为它要么依赖于浅层的参数知识,要么顺序地过度拟合到非泛化的轨迹局部经验。为了克服这些问题,我们提出了Trace2Skill框架,该框架模仿人类专家编写技能的方式:在将广泛的执行经验提炼成单一、全面的指南之前,对其进行整体分析。Trace2Skill不是顺序地对单个轨迹做出反应,而是调度一个并行的子Agent群来分析不同的执行池。它提取特定于轨迹的经验,并通过归纳推理将其分层地整合到统一的、无冲突的技能目录中。Trace2Skill支持深化现有的人工编写技能,以及从头开始创建新技能。在电子表格、VisionQA和数学推理等具有挑战性的领域中的实验表明,Trace2Skill显著优于强大的基线,包括Anthropic官方的xlsx技能。至关重要的是,这种基于轨迹的演化不仅仅是记忆任务实例或特定于模型的怪癖:演化的技能可以在LLM规模之间迁移,并泛化到OOD设置。例如,由Qwen3.5-35B在其自身轨迹上演化的技能,使Qwen3.5-122B Agent在WikiTableQuestions上的性能提高了高达57.65个绝对百分点。最终,我们的结果表明,复杂的Agent经验可以被打包成高度可迁移的声明式技能——无需参数更新,无需外部检索模块,并且可以使用小至35B参数的开源模型。

🔬 方法详解

问题定义:现有方法在为LLM Agent生成领域特定技能时,面临手动编写成本高昂、自动生成技能泛化性差的问题。具体来说,手动编写难以扩展到复杂领域,而自动生成方法容易过拟合特定轨迹,导致技能无法迁移到新的任务或模型上。

核心思路:Trace2Skill的核心思路是模仿人类专家编写技能的方式,即先分析大量执行经验,然后提炼成通用的技能指南。通过并行分析多个轨迹,提取轨迹局部经验,并进行归纳推理,最终得到统一的、无冲突的技能目录。这种方法旨在克服现有方法的局限性,提高技能的可迁移性和泛化能力。

技术框架:Trace2Skill框架包含以下主要模块:1) 轨迹收集:收集Agent在特定领域执行任务的轨迹数据。2) 并行子Agent分析:派遣多个子Agent并行分析不同的轨迹,提取轨迹特定的经验教训。3) 经验整合:通过归纳推理,将各个子Agent提取的经验教训分层整合到统一的技能目录中,解决冲突并生成通用的技能描述。4) 技能应用:将生成的技能应用于新的任务或模型,评估其性能和泛化能力。

关键创新:Trace2Skill的关键创新在于其基于轨迹局部经验的技能提炼方法。与现有方法不同,Trace2Skill不是直接从参数知识或单个轨迹中学习技能,而是通过分析大量轨迹数据,提取轨迹特定的经验教训,并进行归纳推理,从而生成更通用、更可迁移的技能。这种方法能够克服现有方法容易过拟合特定任务或模型的局限性。

关键设计:Trace2Skill的关键设计包括:1) 子Agent的设计:子Agent负责分析单个轨迹,提取关键的步骤、决策和结果。2) 归纳推理算法:用于将多个子Agent提取的经验教训整合到统一的技能目录中,解决冲突并生成通用的技能描述。3) 技能表示:采用声明式技能表示,使得技能易于理解和迁移。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Trace2Skill在电子表格、VisionQA和数学推理等任务上显著优于现有基线,包括Anthropic官方的xlsx技能。例如,使用Qwen3.5-35B模型训练的技能,可以使Qwen3.5-122B模型在WikiTableQuestions上的性能提高高达57.65个绝对百分点。这些结果表明,Trace2Skill能够有效地提炼可迁移的技能,并提高LLM Agent的性能。

🎯 应用场景

Trace2Skill具有广泛的应用前景,可用于自动化生成各种领域特定技能,例如电子表格操作、视觉问答、数学推理等。该技术可以显著降低LLM Agent开发成本,提高其在复杂任务中的性能和泛化能力。未来,Trace2Skill有望应用于智能客服、自动化办公、机器人控制等领域。

📄 摘要(原文)

Equipping Large Language Model (LLM) agents with domain-specific skills is critical for tackling complex tasks. Yet, manual authoring creates a severe scalability bottleneck. Conversely, automated skill generation often yields fragile or fragmented results because it either relies on shallow parametric knowledge or sequentially overfits to non-generalizable trajectory-local lessons. To overcome this, we introduce Trace2Skill, a framework that mirrors how human experts author skills: by holistically analyzing broad execution experience before distilling it into a single, comprehensive guide. Instead of reacting sequentially to individual trajectories, Trace2Skill dispatches a parallel fleet of sub-agents to analyze a diverse pool of executions. It extracts trajectory-specific lessons and hierarchically consolidates them into a unified, conflict-free skill directory via inductive reasoning. Trace2Skill supports both deepening existing human-written skills and creating new ones from scratch. Experiments in challenging domains, such as spreadsheet, VisionQA and math reasoning, show that Trace2Skill significantly improves upon strong baselines, including Anthropic's official xlsx skills. Crucially, this trajectory-grounded evolution does not merely memorize task instances or model-specific quirks: evolved skills transfer across LLM scales and generalize to OOD settings. For example, skills evolved by Qwen3.5-35B on its own trajectories improved a Qwen3.5-122B agent by up to 57.65 absolute percentage points on WikiTableQuestions. Ultimately, our results demonstrate that complex agent experience can be packaged into highly transferable, declarative skills -- requiring no parameter updates, no external retrieval modules, and utilizing open-source models as small as 35B parameters.