UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems

作者: Yiqun Chen, Wei Yang, Erhan Zhang, Shijie Wang, Qi Liu, Zechun Niu, Bin Zhang, Haitao Li, Rui Li, Lingyong Yan, Jinyuan Feng, Biqing Qi, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao

分类: cs.AI, cs.CL, cs.MA

发布日期: 2026-05-26

💡 一句话要点

UnityMAS-O：用于LLM多智能体系统的通用强化学习优化框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 强化学习 LLM 工作流优化 参数共享

📋 核心要点

现有LLM多智能体系统依赖手动编排，缺乏统一的强化学习优化接口，且现有RL框架难以处理复杂的多智能体工作流。
UnityMAS-O将完整工作流作为优化单元，通过逻辑角色、图轨迹、用户定义奖励和智能体-模型映射来解耦智能体与模型。
实验表明，UnityMAS-O在检索增强问答、迭代搜索和代码生成等任务中，能有效提升多智能体系统的性能，尤其对小模型效果显著。

📝 摘要（中文）

基于LLM的多智能体系统将复杂任务分解为相互作用的角色，但大多数系统仍然依赖于手动编排的提示、工具和控制规则，很少通过统一的强化学习接口来优化智能体。现有的强化学习后训练框架主要针对单策略优化，缺乏对用户定义的多智能体工作流、结构化交互、角色特定信用分配和可配置参数共享的抽象。本文提出了UnityMAS-O，一个用于基于LLM的多智能体系统的通用强化学习优化框架。UnityMAS-O将完整的工作流视为优化单元，而不是单个响应或策略轨迹。它通过四个一等对象表示工作流：逻辑智能体角色、图轨迹、用户定义的奖励和智能体-模型映射。这使得逻辑智能体与物理模型参数解耦，支持完全共享、完全分离和部分共享，奖励在角色、回合和轨迹级别分配。UnityMAS-O使用基于Ray的星型拓扑运行时扩展了verl。中央控制器执行工作流，调用工具，记录结构化轨迹，并组装奖励；模型本地工作组处理rollout、缓冲、优势计算和分布式PPO风格的更新。用户可以定义智能体、工作流、模型映射和奖励，而无需重写优化基础设施。我们在检索增强问答、迭代智能体搜索和反思性代码生成上实例化了UnityMAS-O。在Natural Questions、HotpotQA和保留的代码任务中，多智能体强化学习在优化后改进了手动指定的工作流，对于较小的模型和严格的代码全通过指标，收益尤其显著。这些结果表明，UnityMAS-O可以作为可重用的基础，将各种基于LLM的多智能体工作流转换为可训练的多智能体强化学习系统。

🔬 方法详解

问题定义：现有基于LLM的多智能体系统通常依赖于人工设计的提示、工具和控制规则，缺乏自动优化机制。现有的强化学习方法主要针对单智能体或单策略优化，难以直接应用于复杂的多智能体工作流，无法有效处理角色间的交互、信用分配以及参数共享等问题。

核心思路：UnityMAS-O的核心思路是将整个多智能体工作流视为一个可优化的单元，而不是孤立的智能体行为。通过定义逻辑智能体角色、图轨迹、用户自定义奖励和智能体-模型映射等抽象概念，将智能体与底层模型参数解耦，从而实现灵活的参数共享和角色特定的奖励分配。

技术框架：UnityMAS-O的整体框架基于Ray的星型拓扑结构。一个中央控制器负责执行工作流，调用外部工具，记录结构化轨迹，并根据用户定义的规则组装奖励。多个模型本地工作组负责rollout、经验缓冲、优势函数计算以及分布式PPO风格的参数更新。用户可以通过定义智能体、工作流、模型映射和奖励函数来定制系统行为，而无需修改底层的优化基础设施。

关键创新：UnityMAS-O的关键创新在于其对多智能体工作流的抽象表示，以及将整个工作流作为优化单元的思路。通过解耦逻辑智能体和物理模型参数，实现了灵活的参数共享策略，并允许用户自定义角色、回合和轨迹级别的奖励函数。这种设计使得UnityMAS-O能够适应各种不同的多智能体应用场景。

关键设计：UnityMAS-O的关键设计包括：1) 逻辑智能体角色抽象，允许用户定义不同的角色及其行为；2) 图轨迹表示，用于记录智能体之间的交互和状态转移；3) 用户自定义奖励函数，允许用户根据任务目标设计奖励信号；4) 智能体-模型映射，支持完全共享、完全分离和部分共享的参数共享策略；5) 基于PPO的分布式优化算法，用于高效地训练多智能体系统。

🖼️ 关键图片

📊 实验亮点

在Natural Questions、HotpotQA和代码生成任务上的实验结果表明，UnityMAS-O能够有效提升多智能体系统的性能。例如，在代码生成任务中，使用UnityMAS-O优化后的系统在代码全通过指标上取得了显著提升，尤其是在模型规模较小的情况下。这些结果验证了UnityMAS-O的有效性和实用性。

🎯 应用场景

UnityMAS-O可应用于各种基于LLM的多智能体系统，例如：智能客服、协同写作、代码生成、智能搜索等。通过强化学习优化，可以提升这些系统的性能和效率，使其能够更好地完成复杂任务。该框架的通用性和可扩展性使其能够适应不同的应用场景，并为未来的多智能体系统研究提供了一个有力的工具。

📄 摘要（原文）

LLM-based multi-agent systems decompose complex tasks into interacting roles, but most remain manually orchestrated by prompts, tools, and control rules, while agents are rarely optimized through a unified reinforcement learning interface. Existing RL post-training frameworks mainly target single-policy optimization and lack abstractions for user-defined multi-agent workflows, structured interaction, role-specific credit assignment, and configurable parameter sharing. We present UnityMAS-O, a general RL optimization framework for LLM-based multi-agent systems. UnityMAS-O treats the complete workflow as the optimization unit, rather than a single response or policy trajectory. It represents workflows through four first-class objects: logical agent roles, graph trajectories, user-defined rewards, and agent--model mappings. This decouples logical agents from physical model parameters, supporting full sharing, full separation, and partial sharing, with rewards assigned at role, turn, and trajectory levels. UnityMAS-O extends verl with a Ray-based star-topology runtime. A central controller executes workflows, invokes tools, records structured trajectories, and assembles rewards; model-local worker groups handle rollout, buffering, advantage computation, and distributed PPO-style updates. Users can define agents, workflows, model mappings, and rewards without rewriting the optimization infrastructure. We instantiate UnityMAS-O on retrieval-augmented QA, iterative agentic search, and reflective code generation. Across Natural Questions, HotpotQA, and held-out code tasks, multi-agent RL improves manually specified workflows after optimization, with especially large gains for smaller models and strict code all-passed metrics. These results show that UnityMAS-O can serve as a reusable substrate for converting diverse LLM-based multi-agent workflows into trainable multi-agent RL systems.

UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理