TRACE: Capability-Targeted Agentic Training

📄 arXiv: 2604.05336v1 📥 PDF

作者: Hangoo Kang, Tarun Suresh, Jon Saad-Falcon, Azalia Mirhoseini

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

TRACE:面向能力的Agent训练,提升Agent在复杂环境中的任务解决能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent训练 能力学习 强化学习 LoRA适配器 环境合成

📋 核心要点

  1. 现有Agent训练方法缺乏针对性,要么使用非目标环境的合成数据,要么在目标环境中隐式学习,效率低下。
  2. TRACE通过对比成功和失败轨迹,自动识别Agent的能力缺陷,并合成针对性训练环境,提升特定能力。
  3. 实验表明,TRACE在客户服务和工具使用等任务中显著优于现有方法,且具有更高的训练效率。

📝 摘要(中文)

大型语言模型(LLMs)在Agent环境中部署时,必须在不同的任务实例中运用多种能力,其中一种能力是指在轨迹中执行一个或多个动作,这些动作对于成功解决环境中一部分任务是必要的。许多现有方法要么依赖于并非针对模型在目标环境中实际能力缺陷的合成训练数据,要么直接在目标环境中训练,模型需要在任务中隐式地学习能力。我们介绍TRACE(Turning Recurrent Agent failures into Capability-targeted training Environments),这是一个用于环境特定Agent自我改进的端到端系统。TRACE对比成功和失败的轨迹,自动识别缺乏的能力,为每个能力合成一个有针对性的训练环境,奖励是否使用了该能力,并通过RL在每个合成环境上训练LoRA适配器,并在推理时路由到相关的适配器。实验表明,TRACE可以推广到不同的环境,在$τ^2$-bench(客户服务)上比基础Agent提高了+14.1分,在ToolSandbox(工具使用)上提高了+7个完美分数,分别优于最强的基线+7.4分和+4个完美分数。在相同数量的rollout下,TRACE比基线更有效地扩展,在$τ^2$-bench上优于GRPO和GEPA +9.2和+7.4分。

🔬 方法详解

问题定义:现有Agent训练方法在复杂环境中存在不足。一方面,使用合成数据训练的Agent可能无法很好地适应真实环境,因为合成数据难以完全模拟真实环境的复杂性。另一方面,直接在目标环境中训练Agent需要Agent自行探索和学习各种能力,效率较低,且容易陷入局部最优。因此,如何高效地训练Agent,使其具备在复杂环境中解决各种任务所需的能力,是一个亟待解决的问题。

核心思路:TRACE的核心思路是“从失败中学习”。通过对比Agent在任务中的成功和失败轨迹,TRACE能够自动识别Agent所缺乏的关键能力。然后,TRACE会针对这些缺失的能力,合成专门的训练环境,并利用强化学习(RL)来训练Agent在这些环境中使用这些能力。这种针对性的训练方式能够显著提高Agent的学习效率和泛化能力。

技术框架:TRACE的整体框架包含以下几个主要模块:1) 轨迹收集:收集Agent在目标环境中的交互轨迹,包括成功和失败的轨迹。2) 能力识别:对比成功和失败的轨迹,自动识别Agent缺乏的关键能力。3) 环境合成:针对每个缺失的能力,合成一个专门的训练环境,该环境会奖励Agent使用该能力。4) LoRA训练:在合成的训练环境中使用强化学习训练LoRA适配器,LoRA适配器用于调整预训练语言模型的参数,使其更好地适应目标环境。5) 推理路由:在推理时,根据当前任务的需求,动态地选择合适的LoRA适配器来指导Agent的行动。

关键创新:TRACE的关键创新在于其能够自动识别Agent的能力缺陷,并针对这些缺陷合成专门的训练环境。这种针对性的训练方式能够显著提高Agent的学习效率和泛化能力。与现有方法相比,TRACE不需要人工设计训练环境,也不需要手动标注Agent的能力,从而大大降低了训练成本。

关键设计:TRACE使用对比学习来识别Agent的能力缺陷。具体来说,TRACE会比较成功和失败轨迹中的状态-动作对,并找出那些在成功轨迹中出现频率高,但在失败轨迹中出现频率低的动作。这些动作就被认为是Agent所缺乏的关键能力。在环境合成方面,TRACE会设计一个奖励函数,该函数会奖励Agent使用目标能力。在LoRA训练方面,TRACE使用PPO算法来训练LoRA适配器。在推理路由方面,TRACE使用一个分类器来预测当前任务需要哪些能力,然后选择相应的LoRA适配器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRACE在$τ^2$-bench(客户服务)和ToolSandbox(工具使用)两个benchmark上都取得了显著的性能提升。在$τ^2$-bench上,TRACE比基础Agent提高了+14.1分,比最强的基线提高了+7.4分。在ToolSandbox上,TRACE提高了+7个完美分数,比最强的基线提高了+4个完美分数。此外,TRACE在相同数量的rollout下,比GRPO和GEPA等基线方法具有更高的训练效率,在$τ^2$-bench上分别优于它们+9.2和+7.4分。

🎯 应用场景

TRACE具有广泛的应用前景,可以应用于各种需要Agent与环境交互的场景,例如客户服务、智能助手、机器人控制等。通过TRACE,可以训练出能够更好地理解用户意图、更有效地完成任务的Agent。该研究有助于推动Agent技术的发展,并为构建更加智能、高效的人机交互系统奠定基础。

📄 摘要(原文)

Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on $τ^2$-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on $τ^2$-bench.