Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation

📄 arXiv: 2605.05007v1 📥 PDF

作者: Zhiqing Cui, Haotong Xie, Jiahao Yuan, Cheng Yang, Hanqing Wang, Yuxin Wu, Yifan Wu, Siru Zhong, Tao Yu, Yifu Guo, Siyu Zhang, Xinlei Yu, Qibing Ren, Usman Naseem

分类: cs.AI

发布日期: 2026-05-06


💡 一句话要点

Uno-Orchestra:通过选择性委托实现精简的多智能体路由

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 任务编排 强化学习 选择性委托 大型语言模型 资源优化 任务分解

📋 核心要点

  1. 现有LLM多智能体系统编排方式僵化,无法联合优化任务分解深度、工作者选择和推理预算。
  2. Uno-Orchestra通过强化学习,学习选择性分解任务,并将子任务分派给合适的模型和原语。
  3. 实验表明,Uno-Orchestra在多个任务上显著提升了性能,同时降低了查询成本。

📝 摘要(中文)

大型语言模型(LLM)多智能体系统通常依赖于僵化的编排方式,要么采用扁平的逐查询路由,要么采用手工设计的任务分解,因此分解深度、工作者选择和推理预算无法在同一目标下进行联合优化。我们提出了Uno-Orchestra,一种统一的编排策略,它选择性地分解任务,并将每个子任务分派给一个可接受的(模型,原语)对,这两个决策都是从基于真实工作者交互的精选强化学习轨迹中共同学习的。在涵盖数学、代码、知识、长上下文和智能体工具使用的13个基准测试套件上,与22个基线相比,Uno-Orchestra达到了77.0%的宏平均pass@1,比最强的工作流基线高出约16%,而每个查询的成本大约低一个数量级,从而提高了选择性委托的准确性-效率边界。

🔬 方法详解

问题定义:现有的大型语言模型多智能体系统在任务编排方面存在局限性。它们通常采用固定的路由策略,要么是扁平的逐查询路由,要么是人工设计的任务分解流程。这些方法无法根据任务的复杂度和资源限制,动态地调整任务分解的深度、选择合适的工作者(模型或工具),以及优化推理预算,导致效率低下和性能瓶颈。

核心思路:Uno-Orchestra的核心思想是学习一个统一的编排策略,该策略能够根据任务的特性,选择性地将任务分解成子任务,并将每个子任务分配给最合适的(模型,原语)对。这种选择性委托机制允许系统在准确性和效率之间进行权衡,从而在有限的资源下实现最佳性能。

技术框架:Uno-Orchestra采用强化学习框架进行训练。整体流程包括:1) 任务输入;2) 编排策略(强化学习智能体)决定是否分解任务以及如何分解;3) 将子任务分派给选定的(模型,原语)对;4) 执行子任务并收集结果;5) 根据结果计算奖励信号,并更新编排策略。该框架的关键在于学习一个能够根据任务状态动态调整分解和分派策略的强化学习智能体。

关键创新:Uno-Orchestra的关键创新在于其统一的编排策略,该策略能够同时学习任务分解和资源分配。与传统的固定编排方法相比,Uno-Orchestra能够根据任务的特性和资源限制,动态地调整任务分解的深度和工作者选择,从而实现更高的效率和性能。此外,使用强化学习从真实工作者交互中学习策略,避免了人工设计的局限性。

关键设计:Uno-Orchestra使用强化学习算法(具体算法未知)训练编排策略。奖励函数的设计至关重要,需要平衡任务完成的准确性和推理成本。状态空间需要包含任务的特征、资源限制以及已完成子任务的结果。动作空间包括是否分解任务、分解成哪些子任务以及将子任务分配给哪个(模型,原语)对。具体的网络结构和参数设置在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Uno-Orchestra在包含13个基准测试的套件上进行了评估,涵盖数学、代码、知识、长上下文和智能体工具使用等多个领域。实验结果表明,Uno-Orchestra达到了77.0%的宏平均pass@1,比最强的工作流基线高出约16%,同时每个查询的成本大约低一个数量级。这些结果表明,Uno-Orchestra在准确性和效率方面都取得了显著的提升。

🎯 应用场景

Uno-Orchestra具有广泛的应用前景,可以应用于各种需要多智能体协作的任务,例如智能客服、自动化代码生成、复杂问题求解等。通过优化任务分解和资源分配,Uno-Orchestra可以显著提高多智能体系统的效率和性能,降低运营成本,并提升用户体验。该研究为构建更智能、更高效的多智能体系统提供了新的思路。

📄 摘要(原文)

Large language model (LLM) multi-agent systems typically rely on rigid orchestration, committing either to flat per-query routing or to hand-engineered task decomposition, so decomposition depth, worker choice, and inference budget are not jointly optimized under one objective. We introduce Uno-Orchestra, a unified orchestration policy that selectively decomposes a task and dispatches each subtask to an admissible (model, primitive) pair, with both decisions learned together from curated RL trajectories grounded in real worker interactions. Against 22 baselines on a 13-benchmark suite spanning math, code, knowledge, long-context, and agentic tool-use, Uno-Orchestra reaches 77.0% macro pass@1, roughly 16% above the strongest workflow baseline, at roughly an order of magnitude lower per-query cost, advancing the accuracy-efficiency frontier of selective delegation.