SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks
作者: Yifei Zhou, Song Jiang, Yuandong Tian, Jason Weston, Sergey Levine, Sainbayar Sukhbaatar, Xian Li
分类: cs.LG
发布日期: 2025-03-19
备注: 29 pages, 16 figures
💡 一句话要点
SWEET-RL:训练多轮LLM智能体进行协作推理任务,性能超越GPT4-o
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轮交互 强化学习 LLM智能体 信用分配 人机协作
📋 核心要点
- 现有方法难以在多轮交互中有效分配信用,无法充分利用LLM的泛化能力,阻碍了LLM智能体在复杂任务中的应用。
- SWEET-RL通过设计优化目标,利用训练时信息训练评论家模型,为策略模型提供步进级别的奖励,从而实现更有效的信用分配。
- 实验表明,SWEET-RL在ColBench基准测试中显著提升了LLM智能体的成功率和胜率,Llama-3.1-8B的性能甚至超越了GPT4-o。
📝 摘要(中文)
大型语言模型(LLM)智能体需要在现实世界的任务中执行多轮交互。然而,现有的用于优化LLM智能体的多轮强化学习(RL)算法无法在多个回合中进行有效的信用分配,同时利用LLM的泛化能力,并且如何开发此类算法仍不清楚。为了研究这个问题,我们首先引入了一个新的基准测试ColBench,其中LLM智能体与人类合作者进行多轮交互,以解决后端编程和前端设计中的实际任务。在此基准测试的基础上,我们提出了一种新的RL算法SWEET-RL(利用训练时信息的逐步评估强化学习),该算法使用精心设计的优化目标来训练一个可以访问额外训练时信息的评论家模型。评论家为改进策略模型提供步进级别的奖励。我们的实验表明,与其他最先进的多轮RL算法相比,SWEET-RL在ColBench上的成功率和胜率绝对提高了6%,使Llama-3.1-8B在实际协作内容创作中达到或超过GPT4-o的性能。
🔬 方法详解
问题定义:论文旨在解决多轮交互场景下,LLM智能体难以进行有效信用分配的问题。现有方法的痛点在于,无法准确评估每个步骤对最终结果的贡献,导致强化学习训练效率低下,难以充分发挥LLM的潜力。
核心思路:论文的核心思路是利用训练时信息,训练一个能够提供步进级别奖励的评论家模型。通过更细粒度的奖励信号,帮助策略模型更好地学习每个步骤的价值,从而实现更有效的信用分配。
技术框架:SWEET-RL的整体框架包含策略模型和评论家模型。策略模型负责生成动作,与环境(包括人类合作者)进行交互。评论家模型利用训练时信息,对策略模型生成的每个动作进行评估,并给出步进级别的奖励。策略模型根据这些奖励信号进行更新,从而优化其策略。
关键创新:SWEET-RL的关键创新在于利用训练时信息训练评论家模型。传统强化学习方法通常只能依赖最终奖励来评估整个交互过程,而SWEET-RL通过访问训练时信息,可以更准确地评估每个步骤的贡献,从而实现更有效的信用分配。
关键设计:SWEET-RL的关键设计包括:1) 精心设计的优化目标,用于训练评论家模型,使其能够准确评估每个步骤的价值;2) 使用训练时信息,例如中间状态和动作,作为评论家模型的输入;3) 步进级别的奖励函数,用于指导策略模型的学习。具体的网络结构和参数设置在论文中有详细描述,但此处未给出。
🖼️ 关键图片
📊 实验亮点
SWEET-RL在ColBench基准测试中取得了显著的性能提升,成功率和胜率相比其他最先进的多轮RL算法提高了6%。更令人瞩目的是,经过SWEET-RL训练的Llama-3.1-8B模型在实际协作内容创作中,性能甚至可以与GPT4-o相媲美,证明了该方法的有效性和潜力。
🎯 应用场景
SWEET-RL具有广泛的应用前景,可用于训练LLM智能体在各种需要多轮交互的复杂任务中与人类协作,例如软件开发、产品设计、客户服务等。该研究有助于提升LLM智能体的协作能力和问题解决能力,推动人机协作的智能化发展。
📄 摘要(原文)
Large language model (LLM) agents need to perform multi-turn interactions in real-world tasks. However, existing multi-turn RL algorithms for optimizing LLM agents fail to perform effective credit assignment over multiple turns while leveraging the generalization capabilities of LLMs and it remains unclear how to develop such algorithms. To study this, we first introduce a new benchmark, ColBench, where an LLM agent interacts with a human collaborator over multiple turns to solve realistic tasks in backend programming and frontend design. Building on this benchmark, we propose a novel RL algorithm, SWEET-RL (RL with Step-WisE Evaluation from Training-time information), that uses a carefully designed optimization objective to train a critic model with access to additional training-time information. The critic provides step-level rewards for improving the policy model. Our experiments demonstrate that SWEET-RL achieves a 6% absolute improvement in success and win rates on ColBench compared to other state-of-the-art multi-turn RL algorithms, enabling Llama-3.1-8B to match or exceed the performance of GPT4-o in realistic collaborative content creation.