Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization
作者: Dong Qiu, Duo Xu, Limengxi Yue
分类: cs.AI
发布日期: 2025-12-31
备注: Accepted by IEEE ICFTIC 2025
💡 一句话要点
提出强化学习增强的LLM智能体框架,优化协同决策与性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体协作 强化学习 大型语言模型 Dec-POMDP CTDE 策略优化 群体相对策略优化
📋 核心要点
- 现有LLM在多智能体协作中缺乏全局优化能力,难以兼顾任务质量、速度和协调成本。
- 论文提出强化学习增强的LLM智能体框架,利用集中式训练分散式执行(CTDE)优化协作策略。
- 实验表明,该框架在协作写作和编码任务中显著提升了任务速度、一致性和测试通过率。
📝 摘要(中文)
大型语言模型(LLMs)在语言任务中表现出色,但通常缺乏协作意识,难以优化多智能体环境中的全局性能。本文提出了一种强化学习增强的LLM智能体框架,该框架将协作建模为去中心化的部分可观察马尔可夫决策过程(Dec-POMDP),并采用集中式训练与分散式执行(CTDE)。我们引入了群体相对策略优化(GRPO),以便在训练期间利用全局信号联合优化智能体策略,并采用简化的联合奖励来平衡任务质量、速度和协调成本。在协作写作和编码基准测试中,我们的框架比单智能体基线提高了3倍的任务处理速度,写作结构/风格一致性达到98.7%,编码测试通过率达到74.6%。该方法始终优于强大的多智能体LLM基线,并为复杂工作流程中的可靠协作提供了一条切实可行的途径。
🔬 方法详解
问题定义:论文旨在解决多智能体协作场景下,大型语言模型(LLM)智能体缺乏协作意识和全局优化能力的问题。现有方法难以在任务质量、处理速度和智能体间的协调成本之间取得有效平衡,导致整体性能受限。
核心思路:论文的核心思路是将多智能体协作问题建模为去中心化的部分可观察马尔可夫决策过程(Dec-POMDP),并利用强化学习方法进行优化。通过集中式训练和分散式执行(CTDE)的范式,允许智能体在训练阶段访问全局信息,从而学习到更优的协作策略。
技术框架:整体框架包含以下几个主要组成部分:1) LLM智能体:每个智能体由一个LLM驱动,负责生成动作;2) 环境:模拟多智能体协作的场景,例如协作写作或编码;3) 强化学习模块:使用GRPO算法优化智能体的策略;4) 奖励函数:用于评估智能体的行为,并指导策略学习。训练阶段,所有智能体的策略在中央控制器中进行优化,执行阶段,每个智能体根据自身观察独立决策。
关键创新:论文的关键创新在于提出了群体相对策略优化(GRPO)算法,该算法允许智能体在训练期间利用全局信号联合优化策略。与传统的独立学习方法相比,GRPO能够更好地协调智能体之间的行为,从而实现全局性能的优化。此外,论文还设计了一个简化的联合奖励函数,用于平衡任务质量、速度和协调成本。
关键设计:GRPO算法基于策略梯度方法,通过计算每个智能体相对于群体平均策略的优势函数来更新策略。奖励函数的设计至关重要,论文采用了一个加权和的形式,将任务完成度、处理速度和智能体间的协调成本纳入考虑。具体权重需要根据具体任务进行调整,以达到最佳的性能平衡。
📊 实验亮点
实验结果表明,该框架在协作写作和编码任务中均取得了显著的性能提升。在任务处理速度方面,相比单智能体基线提高了3倍;在写作一致性方面,达到了98.7%;在编码测试通过率方面,达到了74.6%。该方法还优于其他多智能体LLM基线,验证了其有效性。
🎯 应用场景
该研究成果可应用于多种多智能体协作场景,例如:协同软件开发、智能文档撰写、自动化流程设计、以及机器人协同作业等。通过提升智能体间的协作效率和全局性能,可以显著提高工作效率,降低成本,并实现更复杂的任务。
📄 摘要(原文)
Large Language Models (LLMs) perform well in language tasks but often lack collaborative awareness and struggle to optimize global performance in multi-agent settings. We present a reinforcement learning-augmented LLM agent framework that formulates cooperation as a decentralized partially observable Markov decision process (Dec-POMDP) and adopts centralized training with decentralized execution (CTDE). We introduce Group Relative Policy Optimization (GRPO) to jointly optimize agent policies with access to global signals during training, together with a simplified joint reward that balances task quality, speed, and coordination cost. On collaborative writing and coding benchmarks, our framework delivers a 3x increase in task processing speed over single-agent baselines, 98.7% structural/style consistency in writing, and a 74.6% test pass rate in coding. The approach consistently outperforms strong multi-agent LLM baselines and provides a practical path toward reliable collaboration in complex workflows.