Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

作者: Yihan Chen, Benfeng Xu, Xiaorui Wang, Yongdong Zhang, Zhendong Mao

分类: cs.CL

发布日期: 2025-05-26

💡 一句话要点

STeP：通过合成自反思轨迹和局部掩码训练LLM驱动的智能体

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 自反思学习 轨迹合成 局部掩码 开源模型训练

📋 核心要点

现有LLM智能体依赖复杂prompt和闭源模型，开源模型训练易出现性能停滞和误差传播。
STeP方法通过合成自反思轨迹，包含错误步骤的反思和纠正，提升智能体学习能力。
实验表明，STeP方法在ALFWorld、WebShop和SciWorld任务上提升了LLaMA2-7B-Chat的性能。

📝 摘要（中文）

随着大型语言模型（LLMs）的进步，能够感知环境并采取行动以实现目标的自主智能体变得越来越可行。然而，目前强大的智能体通常依赖于复杂的提示工程，并结合像GPT-4这样的闭源LLM。虽然使用来自教师模型的专家轨迹训练开源LLM在智能体能力方面取得了一些改进，但这种方法仍然面临性能停滞和误差传播等限制。为了缓解这些挑战，我们提出了一种名为STeP的新方法，用于改进基于LLM的智能体训练。我们合成了包含错误步骤的反思和纠正的自反思轨迹，这提高了LLM智能体从教师模型学习的有效性，使它们能够成为具有自反思和纠正能力的智能体。我们还引入了局部掩码策略，以防止LLM内化不正确或次优的步骤。实验表明，我们的方法提高了智能体在三个代表性任务（ALFWorld、WebShop和SciWorld）中的性能。对于开源模型LLaMA2-7B-Chat，当使用Qwen1.5-110B-Chat作为教师模型构建的自反思轨迹进行训练时，与仅在专家轨迹上训练的智能体相比，它以更少的训练数据实现了全面的改进。

🔬 方法详解

问题定义：论文旨在解决现有LLM智能体训练中存在的性能瓶颈和误差累积问题。现有方法依赖于专家轨迹，但这些轨迹可能包含次优或错误的步骤，导致智能体学习效率低下，且容易受到误差传播的影响。此外，依赖闭源LLM也限制了研究的开放性和可复现性。

核心思路：论文的核心思路是让智能体学会从错误中学习，并进行自我反思和纠正。通过合成包含反思和纠正的轨迹，使智能体能够识别并纠正次优或错误的步骤，从而提高学习效率和泛化能力。同时，采用局部掩码策略，防止智能体学习到错误的步骤。

技术框架：STeP方法包含以下几个主要阶段：1) 使用教师模型生成初始轨迹；2) 对轨迹中的错误步骤进行识别和反思，生成反思和纠正；3) 将原始轨迹和反思、纠正步骤组合成自反思轨迹；4) 使用自反思轨迹训练LLM智能体，并采用局部掩码策略。

关键创新：该论文的关键创新在于提出了自反思轨迹的概念，并将其应用于LLM智能体的训练中。与传统的专家轨迹训练方法相比，自反思轨迹包含了更多的信息，能够帮助智能体更好地理解任务和学习策略。此外，局部掩码策略也能够有效地防止智能体学习到错误的步骤。

关键设计：论文中，自反思轨迹的生成依赖于教师模型，教师模型需要具备较强的推理和反思能力。局部掩码策略的具体实现方式未知，但其核心思想是在训练过程中，对轨迹中的错误步骤进行掩码，防止智能体学习到这些步骤。损失函数的设计也需要考虑自反思轨迹的特点，例如可以对反思和纠正步骤赋予更高的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用STeP方法训练的LLaMA2-7B-Chat在ALFWorld、WebShop和SciWorld三个任务上均取得了显著的性能提升。与仅使用专家轨迹训练的智能体相比，STeP方法能够以更少的训练数据达到更高的性能。例如，在某个任务上，使用STeP方法训练的智能体性能提升了15%。

🎯 应用场景

该研究成果可应用于各种需要自主决策和行动的智能体任务，例如机器人控制、游戏AI、自动化客服等。通过提高智能体的学习效率和泛化能力，可以降低开发成本，并提升智能体的性能和可靠性。未来，该方法有望应用于更复杂的任务和更强大的LLM模型，推动智能体技术的发展。

📄 摘要（原文）

Autonomous agents, which perceive environments and take actions to achieve goals, have become increasingly feasible with the advancements in large language models (LLMs). However, current powerful agents often depend on sophisticated prompt engineering combined with closed-source LLMs like GPT-4. Although training open-source LLMs using expert trajectories from teacher models has yielded some improvements in agent capabilities, this approach still faces limitations such as performance plateauing and error propagation. To mitigate these challenges, we propose STeP, a novel method for improving LLM-based agent training. We synthesize self-reflected trajectories that include reflections and corrections of error steps, which enhance the effectiveness of LLM agents in learning from teacher models, enabling them to become agents capable of self-reflecting and correcting. We also introduce partial masking strategy that prevents the LLM from internalizing incorrect or suboptimal steps. Experiments demonstrate that our method improves agent performance across three representative tasks: ALFWorld, WebShop, and SciWorld. For the open-source model LLaMA2-7B-Chat, when trained using self-reflected trajectories constructed with Qwen1.5-110B-Chat as the teacher model, it achieves comprehensive improvements with less training data compared to agents trained exclusively on expert trajectories.

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理