OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
作者: Mengkang Hu, Yuhang Zhou, Wendong Fan, Yuzhou Nie, Bowei Xia, Tao Sun, Ziyu Ye, Zhaoxuan Jin, Yingru Li, Qiguang Chen, Zeyu Zhang, Yifeng Wang, Qianshuo Ye, Bernard Ghanem, Ping Luo, Guohao Li
分类: cs.AI, cs.CL
发布日期: 2025-05-29 (更新: 2025-06-11)
备注: Project Page: https://github.com/camel-ai/owl
💡 一句话要点
提出OWL框架,通过优化领域无关的规划器,实现多智能体系统在真实世界任务自动化中的跨领域泛化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 任务自动化 领域泛化 强化学习 大型语言模型 工具调用 层级架构
📋 核心要点
- 现有基于LLM的多智能体系统在跨领域应用时,需要完全重新设计架构并重新训练所有组件,泛化能力不足。
- Workforce框架通过解耦战略规划和专业执行,利用领域无关的规划器和领域特定的工作者,实现跨领域迁移。
- 实验表明,OWL训练的Workforce在GAIA基准测试中优于现有开源和商业系统,并在复杂任务上媲美GPT-4o。
📝 摘要(中文)
本文提出Workforce,一个层级化的多智能体框架,旨在解决基于大型语言模型(LLM)的多智能体系统在真实世界任务自动化中跨领域迁移困难的问题。Workforce通过模块化架构解耦了战略规划和专业执行,包含:(i) 用于任务分解的领域无关规划器;(ii) 用于子任务管理的协调器;(iii) 具有领域特定工具调用能力的专业工作者。这种解耦使得在推理和训练阶段都能实现跨领域迁移。在推理阶段,Workforce通过添加或修改工作者智能体来无缝适应新领域;在训练阶段,我们引入了优化工作者学习(OWL),通过从真实世界反馈中进行强化学习来优化领域无关的规划器,从而提高跨领域的泛化能力。在GAIA基准测试上的实验结果表明,Workforce达到了开源领域最先进的性能(69.70%),优于OpenAI的Deep Research(2.34%)。更值得注意的是,经过OWL训练的32B模型实现了52.73%的准确率(+16.37%),并且在具有挑战性的任务上表现出与GPT-4o相当的性能。总之,通过实现可扩展的泛化和模块化的领域迁移,我们的工作为下一代通用人工智能助手奠定了基础。
🔬 方法详解
问题定义:现有基于大型语言模型的多智能体系统在自动化真实世界任务时,面临着领域泛化性差的问题。当任务领域发生变化时,需要对整个系统进行重新设计和训练,成本高昂且效率低下。现有的方法缺乏模块化设计,难以实现知识的迁移和复用。
核心思路:本文的核心思路是将多智能体系统解耦为战略规划和专业执行两个层面。通过设计一个领域无关的规划器负责任务分解和规划,而领域特定的工作者负责执行具体的子任务。这种解耦使得系统可以灵活地适应新的领域,只需替换或增加相应的工作者即可,而无需重新训练整个系统。
技术框架:Workforce框架包含三个主要模块:(1) 领域无关的规划器(Planner):负责将复杂任务分解为一系列子任务,并制定执行计划。(2) 协调器(Coordinator):负责管理子任务的执行顺序和资源分配,协调各个工作者之间的协作。(3) 专业工作者(Workers):负责执行具体的子任务,每个工作者都具备领域特定的工具调用能力。整个流程是:规划器接收任务,分解为子任务,协调器分配子任务给相应的工作者,工作者执行子任务并返回结果,协调器汇总结果并返回给用户。
关键创新:最重要的技术创新点是优化工作者学习(OWL)。OWL通过强化学习的方式,利用真实世界的反馈来优化领域无关的规划器。具体来说,规划器根据当前状态生成一个子任务序列,然后根据工作者的执行结果获得奖励信号,通过强化学习算法不断优化规划策略,从而提高整体的任务完成效率和准确率。与现有方法相比,OWL能够更好地利用真实世界的反馈信息,提高规划器的泛化能力。
关键设计:OWL使用强化学习算法(具体算法未知)来优化规划器。奖励函数的设计至关重要,需要综合考虑任务完成的准确率、效率和资源消耗等因素。工作者的工具调用能力通过预训练或微调大型语言模型来实现。规划器和协调器可以使用Transformer等神经网络结构来实现。具体的参数设置和网络结构在论文中可能没有详细说明(未知)。
🖼️ 关键图片
📊 实验亮点
Workforce在GAIA基准测试中取得了69.70%的准确率,超越了现有开源方法,并且比OpenAI的Deep Research高出2.34%。经过OWL训练的32B模型达到了52.73%的准确率,相比未经过OWL训练的模型提升了16.37%,并且在一些具有挑战性的任务上表现出与GPT-4o相当的性能。
🎯 应用场景
该研究成果可广泛应用于各种真实世界任务自动化场景,例如智能家居、智能办公、客户服务、工业自动化等。通过Workforce框架,可以快速构建适应不同领域的多智能体系统,降低开发成本,提高任务完成效率。未来,该技术有望成为通用人工智能助手的核心组成部分。
📄 摘要(原文)
Large Language Model (LLM)-based multi-agent systems show promise for automating real-world tasks but struggle to transfer across domains due to their domain-specific nature. Current approaches face two critical shortcomings: they require complete architectural redesign and full retraining of all components when applied to new domains. We introduce Workforce, a hierarchical multi-agent framework that decouples strategic planning from specialized execution through a modular architecture comprising: (i) a domain-agnostic Planner for task decomposition, (ii) a Coordinator for subtask management, and (iii) specialized Workers with domain-specific tool-calling capabilities. This decoupling enables cross-domain transferability during both inference and training phases: During inference, Workforce seamlessly adapts to new domains by adding or modifying worker agents; For training, we introduce Optimized Workforce Learning (OWL), which improves generalization across domains by optimizing a domain-agnostic planner with reinforcement learning from real-world feedback. To validate our approach, we evaluate Workforce on the GAIA benchmark, covering various realistic, multi-domain agentic tasks. Experimental results demonstrate Workforce achieves open-source state-of-the-art performance (69.70%), outperforming commercial systems like OpenAI's Deep Research by 2.34%. More notably, our OWL-trained 32B model achieves 52.73% accuracy (+16.37%) and demonstrates performance comparable to GPT-4o on challenging tasks. To summarize, by enabling scalable generalization and modular domain transfer, our work establishes a foundation for the next generation of general-purpose AI assistants.