Training Agents with Weakly Supervised Feedback from Large Language Models

📄 arXiv: 2411.19547v1 📥 PDF

作者: Dihong Gong, Pu Lu, Zelong Wang, Meng Zhou, Xiuqiang He

分类: cs.CL, cs.AI

发布日期: 2024-11-29


💡 一句话要点

提出基于LLM弱监督反馈的Agent训练方法,无需专家轨迹或确定性反馈。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 弱监督学习 环境交互 迭代训练 API调用

📋 核心要点

  1. 现有Agent训练方法依赖专家轨迹或确定性环境反馈,限制了其在游戏或代码生成等特定场景的应用。
  2. 该方法利用评论家LLM提供的弱监督信号,迭代式地训练Agent,无需专家轨迹或明确的环境反馈。
  3. 在API-bank数据集上的实验表明,该方法能够有效提升Agent性能,达到与GPT-4相当的水平。

📝 摘要(中文)

本文提出了一种新颖的基于大型语言模型(LLM)的Agent训练方法,该方法利用来自评论家LLM的弱监督信号,无需专家提供的轨迹或明确的环境反馈。这种方法使得LLM Agent能够处理更复杂的任务,通过迭代式的环境交互进行学习。Agent首先生成轨迹,然后由评论家LLM选择好的轨迹子集,用于更新Agent。更新后的Agent在下一轮迭代中生成更优的轨迹。在API-bank数据集上的大量测试表明,该方法能够持续提升Agent的能力,并达到与GPT-4相当的性能,而使用的仅仅是参数量少得多的开源模型。

🔬 方法详解

问题定义:现有基于LLM的Agent训练方法主要依赖于两种方式:一是模仿专家提供的轨迹,二是依赖于明确的环境反馈进行强化学习。这两种方式都存在局限性。专家轨迹难以获取,且泛化性差;明确的环境反馈只存在于特定场景,如游戏或代码生成。因此,如何训练能够处理复杂任务,且无需专家轨迹或明确环境反馈的LLM Agent是一个关键问题。

核心思路:本文的核心思路是利用一个评论家LLM来提供弱监督信号。Agent与环境交互生成轨迹,然后由评论家LLM对这些轨迹进行评估,选出“好”的轨迹。这些被选出的轨迹被用于更新Agent,使其在后续的迭代中能够生成更好的轨迹。通过这种迭代式的训练方式,Agent能够逐步提升其解决复杂任务的能力。

技术框架:整个训练框架包含以下几个主要模块:1) Agent:负责与环境交互,生成轨迹。2) 环境:Agent交互的对象,提供状态和奖励信号。3) 评论家LLM:负责评估Agent生成的轨迹,提供弱监督信号。4) 训练模块:利用评论家LLM提供的弱监督信号更新Agent。训练流程如下:Agent与环境交互生成轨迹 -> 评论家LLM评估轨迹并选择好的轨迹 -> 训练模块利用选出的轨迹更新Agent -> 重复以上步骤。

关键创新:该方法最重要的创新点在于利用评论家LLM提供的弱监督信号来训练Agent,从而避免了对专家轨迹或明确环境反馈的依赖。与传统的强化学习方法相比,该方法不需要设计复杂的奖励函数,而是直接利用LLM的理解能力来评估Agent的行为。这使得该方法能够应用于更广泛的场景,特别是那些难以定义明确奖励函数的复杂任务。

关键设计:评论家LLM的设计是关键。论文中使用了预训练的LLM作为评论家,并对其进行微调,使其能够更好地评估Agent生成的轨迹。具体的微调方法未知。Agent的更新方式也未知,可能使用了某种策略梯度算法或行为克隆方法。具体的参数设置和损失函数也未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用该方法训练的Agent在API-bank数据集上取得了显著的性能提升,能够达到与GPT-4相当的水平,尽管使用的模型参数量远小于GPT-4。这表明该方法能够有效地利用LLM的知识和推理能力,即使在资源有限的情况下,也能训练出高性能的Agent。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于各种需要Agent与环境交互的复杂任务,例如自动化API调用、智能助手、任务规划等。通过利用LLM的强大能力,可以构建能够自主学习和解决问题的智能Agent,从而提高工作效率和智能化水平。未来,该方法有望扩展到更多领域,例如机器人控制、自动驾驶等。

📄 摘要(原文)

Large Language Models (LLMs) offer a promising basis for creating agents that can tackle complex tasks through iterative environmental interaction. Existing methods either require these agents to mimic expert-provided trajectories or rely on definitive environmental feedback for reinforcement learning which limits their application to specific scenarios like gaming or code generation. This paper introduces a novel training method for LLM-based agents using weakly supervised signals from a critic LLM, bypassing the need for expert trajectories or definitive feedback. Our agents are trained in iterative manner, where they initially generate trajectories through environmental interaction. Subsequently, a critic LLM selects a subset of good trajectories, which are then used to update the agents, enabling them to generate improved trajectories in the next iteration. Extensive tests on the API-bank dataset show consistent improvement in our agents' capabilities and comparable performance to GPT-4, despite using open-source models with much fewer parameters.