Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles
作者: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Yuhao Shen, Zhengxi Lu, Fan Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao
分类: cs.LG, cs.CL
发布日期: 2026-05-21
🔗 代码/项目: GITHUB
💡 一句话要点
Maestro:强化学习驱动的分层模型-技能集成框架,提升多模态任务性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 多模态学习 模型编排 技能组合 自主Agent
📋 核心要点
- 现有框架依赖单体LLM和固定逻辑,无法有效利用不同模型和技能的互补优势,限制了多模态任务的性能。
- Maestro通过强化学习训练轻量级策略,动态组合专家模型和技能库,实现对异构多模态任务的有效编排。
- 实验表明,Maestro在多个多模态基准测试中超越了GPT-5和Gemini-2.5-Pro,且具有良好的泛化能力和计算效率。
📝 摘要(中文)
大型语言模型(LLMs)和模块化技能的普及赋予了自主Agent日益强大的能力。现有的框架通常依赖于单体LLM和固定的逻辑来与这些技能交互,这产生了一个关键瓶颈:不同的LLM在不同的领域提供不同的优势,但当前的框架未能利用模型和技能的互补优势,从而限制了它们在下游任务中的性能。本文提出了Maestro(用于专家技能目标强化编排的多模态Agent),这是一个强化学习(RL)驱动的编排框架,它将异构多模态任务重新定义为分层模型-技能注册表上的顺序决策过程。Maestro没有将所有知识整合到单个模型中,而是训练一个轻量级策略来动态组合冻结的专家模型和两层技能库,决定每一步是否调用外部专家,选择哪个模型-技能对,以及何时终止。该策略通过基于结果的RL进行优化,不需要步级监督。我们在涵盖数学推理、图表理解、高分辨率感知和领域特定分析的十个代表性多模态基准上评估了Maestro。仅使用一个4B的编排器,Maestro实现了70.1%的平均准确率,超过了GPT-5(69.3%)和Gemini-2.5-Pro(68.7%)。至关重要的是,学习到的协调策略可以推广到未见过的模型和技能,而无需重新训练:用领域外的专家扩充注册表在四个具有挑战性的基准上产生了59.5%的平均准确率,优于所有闭源基线。Maestro还保持了高计算效率和低延迟。源代码可在https://github.com/jinyangwu/Maestro获得。
🔬 方法详解
问题定义:现有方法在处理复杂多模态任务时,通常依赖于单一的大型语言模型或固定的技能组合方式,无法充分利用不同模型的优势,也难以适应任务的多样性需求。这导致性能瓶颈,尤其是在需要专业知识或特定技能的任务中。现有方法缺乏动态组合和协调不同模型与技能的能力。
核心思路:Maestro的核心思路是将多模态任务的解决过程建模为一个顺序决策过程,通过强化学习训练一个策略网络,该策略网络能够根据当前任务状态,动态地选择合适的专家模型和技能组合,从而实现对任务的有效分解和解决。这种动态组合的方式可以充分利用不同模型的优势,并适应任务的多样性需求。
技术框架:Maestro框架包含以下主要模块:1) 模型-技能注册表:存储可用的专家模型和技能,形成一个分层结构。2) 策略网络:基于强化学习训练,负责根据当前任务状态选择合适的专家模型和技能。3) 环境:模拟多模态任务的执行过程,并提供奖励信号。4) 执行器:负责执行策略网络选择的模型和技能,并将结果反馈给环境。整个流程是:策略网络观察环境状态,选择模型-技能组合,执行器执行,环境给出奖励,策略网络根据奖励更新自身参数。
关键创新:Maestro的关键创新在于使用强化学习来动态编排异构模型和技能。与传统的固定组合方式不同,Maestro能够根据任务的实际需求,灵活地选择和组合不同的模型和技能,从而实现更好的性能和泛化能力。此外,Maestro采用基于结果的强化学习,无需步级监督,降低了训练成本。
关键设计:Maestro的策略网络是一个轻量级的神经网络,输入是任务状态的表示,输出是选择哪个专家模型和技能的概率分布。强化学习算法采用PPO或类似的算法。奖励函数的设计至关重要,通常基于任务的完成情况和效率来设计。模型-技能注册表的分层结构允许策略网络在不同粒度上进行选择,从而更好地平衡探索和利用。
🖼️ 关键图片
📊 实验亮点
Maestro在十个多模态基准测试中取得了显著的成果。仅使用一个4B参数的编排器,Maestro的平均准确率达到了70.1%,超过了GPT-5(69.3%)和Gemini-2.5-Pro(68.7%)。更重要的是,Maestro展现了良好的泛化能力,在未见过的模型和技能上也能取得优异的性能,平均准确率达到59.5%,优于所有闭源基线。同时,Maestro保持了高计算效率和低延迟。
🎯 应用场景
Maestro具有广泛的应用前景,可应用于智能客服、自动驾驶、智能家居、医疗诊断等领域。通过动态组合不同的模型和技能,Maestro可以更好地适应复杂多变的任务需求,提高系统的智能化水平和解决问题的能力。未来,Maestro有望成为构建通用人工智能系统的关键技术之一。
📄 摘要(原文)
The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.