Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization
作者: Dong Qiu, Duo Xu, Limengxi Yue
分类: cs.AI
发布日期: 2025-12-31
备注: Accepted by IEEE ICFTIC 2025
💡 一句话要点
提出强化学习增强的LLM智能体框架,优化协同决策与性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体协作 强化学习 大型语言模型 Dec-POMDP CTDE 组相对策略优化 协同写作 代码生成
📋 核心要点
- 现有LLM在多智能体协作中缺乏全局优化能力,难以兼顾任务质量、速度和协调成本。
- 论文提出强化学习增强的LLM智能体框架,利用集中式训练分散式执行(CTDE)优化协作策略。
- 实验表明,该框架在写作和编码任务中显著提升了任务速度、一致性和测试通过率。
📝 摘要(中文)
大型语言模型(LLMs)在语言任务中表现出色,但通常缺乏协作意识,难以优化多智能体环境中的全局性能。本文提出了一种强化学习增强的LLM智能体框架,该框架将协作建模为去中心化部分可观测马尔可夫决策过程(Dec-POMDP),并采用集中式训练和分散式执行(CTDE)。我们引入了组相对策略优化(GRPO),以在训练期间利用全局信号联合优化智能体策略,并采用简化的联合奖励来平衡任务质量、速度和协调成本。在协作写作和编码基准测试中,我们的框架比单智能体基线提高了3倍的任务处理速度,写作结构/风格一致性达到98.7%,编码测试通过率达到74.6%。该方法始终优于强大的多智能体LLM基线,并为复杂工作流程中的可靠协作提供了一条实用途径。
🔬 方法详解
问题定义:论文旨在解决多智能体协作场景下,大型语言模型(LLM)难以有效协作并优化全局性能的问题。现有方法,如直接使用LLM进行多智能体协作,往往缺乏对全局信息的利用,导致协作效率低下、任务质量难以保证,并且难以平衡任务速度、质量和协调成本等多个目标。
核心思路:论文的核心思路是将多智能体协作问题建模为去中心化部分可观测马尔可夫决策过程(Dec-POMDP),并利用强化学习方法进行优化。通过集中式训练分散式执行(CTDE)的框架,智能体可以在训练阶段利用全局信息进行学习,而在执行阶段则独立行动,从而实现高效的协作。
技术框架:整体框架包含以下几个主要模块:1) LLM智能体:每个智能体由一个LLM驱动,负责生成动作。2) 强化学习模块:使用强化学习算法优化LLM智能体的策略。3) 集中式训练模块:在训练阶段,所有智能体共享全局信息,并使用组相对策略优化(GRPO)算法进行联合优化。4) 分散式执行模块:在执行阶段,每个智能体独立行动,根据自身观测和学习到的策略生成动作。
关键创新:论文最重要的技术创新点在于提出了组相对策略优化(GRPO)算法。GRPO允许智能体在训练期间访问全局信号,从而更好地学习协作策略。此外,论文还设计了一个简化的联合奖励函数,用于平衡任务质量、速度和协调成本,使得智能体能够更好地优化全局性能。
关键设计:GRPO算法通过引入一个组相对价值函数来指导智能体的策略更新。该价值函数考虑了所有智能体的联合行动对全局奖励的影响,从而使得智能体能够更好地理解协作的重要性。此外,简化的联合奖励函数被设计为任务质量、速度和协调成本的加权和,权重参数可以根据具体任务进行调整。
📊 实验亮点
实验结果表明,该框架在协作写作和编码基准测试中表现出色。在写作任务中,任务处理速度提高了3倍,结构/风格一致性达到98.7%。在编码任务中,测试通过率达到74.6%。该方法始终优于强大的多智能体LLM基线,证明了其有效性和优越性。
🎯 应用场景
该研究成果可应用于多种多智能体协作场景,例如:协同写作、代码生成、机器人协作、自动驾驶等。通过强化学习增强LLM智能体的协作能力,可以显著提高工作效率、降低成本,并实现更智能化的自动化流程。未来,该方法有望扩展到更复杂的任务和更大规模的智能体群体。
📄 摘要(原文)
Large Language Models (LLMs) perform well in language tasks but often lack collaborative awareness and struggle to optimize global performance in multi-agent settings. We present a reinforcement learning-augmented LLM agent framework that formulates cooperation as a decentralized partially observable Markov decision process (Dec-POMDP) and adopts centralized training with decentralized execution (CTDE). We introduce Group Relative Policy Optimization (GRPO) to jointly optimize agent policies with access to global signals during training, together with a simplified joint reward that balances task quality, speed, and coordination cost. On collaborative writing and coding benchmarks, our framework delivers a 3x increase in task processing speed over single-agent baselines, 98.7% structural/style consistency in writing, and a 74.6% test pass rate in coding. The approach consistently outperforms strong multi-agent LLM baselines and provides a practical path toward reliable collaboration in complex workflows.