Exploring Expert Failures Improves LLM Agent Tuning

📄 arXiv: 2504.13145v2 📥 PDF

作者: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Cho-Jui Hsieh, Tianyi Zhou

分类: cs.AI

发布日期: 2025-04-17 (更新: 2025-04-18)


💡 一句话要点

EEF:利用专家失败经验提升LLM Agent的微调效果,刷新WebShop和SciWorld记录。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 拒绝采样微调 专家失败经验 智能体调优 WebShop SciWorld 强化学习 行为策略学习

📋 核心要点

  1. 现有RFT方法在微调LLM Agent时,由于专家主要解决简单子任务,导致复杂子任务长期处于分布外(OOD)。
  2. EEF方法从专家失败轨迹中提取有益行动,并将其融入训练数据,提升Agent探索效率和关键技能。
  3. 实验表明,EEF在WebShop中胜率达62%,超越RFT和GPT-4,并在WebShop和SciWorld上刷新了SOTA。

📝 摘要(中文)

大型语言模型(LLMs)作为智能体展现出巨大潜力,尤其擅长需要多轮推理和交互的任务。拒绝采样微调(RFT)已成为一种有效的LLM智能体微调方法:它首先模仿专家生成的成功轨迹,并通过迭代微调自身生成的成功轨迹来进一步提高智能体技能。然而,由于专家(例如GPT-4)主要在较简单的子任务上取得成功,并且RFT本质上偏爱较简单的场景,许多复杂的子任务仍然未解决且持续超出分布(OOD)。通过研究这些具有挑战性的子任务,我们发现先前失败的专家轨迹通常可以提供有价值的指导,例如计划和关键行动,从而显著提高智能体探索效率和关键技能的获取。受这些观察结果的启发,我们提出了探索专家失败(EEF),该方法从失败的专家轨迹中识别有益的行动,并将它们集成到训练数据集中。潜在有害的行动被仔细排除,以防止污染模型学习过程。通过利用专家失败中的有益行动,EEF成功解决了以前无法解决的一些子任务,并提高了智能体微调性能。值得注意的是,我们的方法在WebShop中实现了62%的胜率,优于RFT(53.6%)和GPT-4(35.6%),并且据我们所知,作为第一个超过WebShop 0.81分和SciWorld 81分的方法,创造了新的state-of-the-art。

🔬 方法详解

问题定义:现有基于拒绝采样微调(RFT)的LLM Agent训练方法,依赖于专家(如GPT-4)生成的成功轨迹。然而,专家往往只能解决较为简单的子任务,导致Agent在复杂、超出分布(OOD)的子任务上表现不佳。RFT方法本身也倾向于简单场景,进一步加剧了这一问题。因此,如何提升LLM Agent在复杂任务上的泛化能力,是本文要解决的核心问题。

核心思路:论文的核心思路是,从专家失败的轨迹中挖掘有价值的信息。虽然专家在某些子任务上失败了,但其失败轨迹中可能包含有益的计划或关键行动,这些信息可以指导Agent更好地探索复杂任务空间,从而提升学习效率和性能。通过选择性地利用这些失败经验,可以有效克服RFT方法的局限性。

技术框架:EEF方法主要包含以下几个阶段:1) 专家轨迹生成:利用专家(如GPT-4)生成任务轨迹,包括成功和失败的轨迹。2) 失败轨迹分析:分析专家失败的轨迹,识别其中可能包含的有益行动。3) 行动筛选:对识别出的行动进行筛选,排除可能有害的行动,避免污染训练数据。4) 数据增强:将筛选后的有益行动整合到训练数据集中,用于微调LLM Agent。5) 模型微调:使用增强后的数据集,对LLM Agent进行微调,提升其在复杂任务上的表现。

关键创新:EEF方法的关键创新在于,它打破了传统RFT方法只关注专家成功经验的局限,转而关注专家失败的经验。通过从失败轨迹中提取有益信息,可以更有效地指导Agent学习,尤其是在复杂、OOD的子任务上。这种利用失败经验进行学习的思路,是与现有方法最本质的区别。

关键设计:论文中关于有益行动的筛选策略是关键设计之一。具体如何判断一个行动是有益的,以及如何排除有害行动,论文中可能涉及一些启发式规则或模型预测。此外,如何将筛选后的行动有效地融入到训练数据集中,例如通过修改损失函数或调整训练策略,也是重要的技术细节。这些细节决定了EEF方法的最终效果。

🖼️ 关键图片

img_0

📊 实验亮点

EEF方法在WebShop任务中取得了显著的性能提升,胜率达到62%,超过了RFT(53.6%)和GPT-4(35.6%)。更重要的是,EEF方法在WebShop和SciWorld任务中均刷新了SOTA,成为首个在WebShop上超过0.81分,在SciWorld上超过81分的方法,证明了其在复杂任务上的优越性能。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理和交互的LLM Agent任务中,例如电商购物助手、科学研究助手、游戏AI等。通过利用专家失败经验,可以显著提升Agent在复杂环境中的适应性和问题解决能力,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.