One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

📄 arXiv: 2603.11545v1 📥 PDF

作者: Mayank Saini Arit Kumar Bishwas

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-12

备注: 19 pages, 3 figures


💡 一句话要点

提出一种自适应工具编排框架,用于自主多模态查询处理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态查询 工具编排 自适应路由 Agentic AI 语言模型 模态分解

📋 核心要点

  1. 现有方法在处理多模态查询时,通常依赖预定义的决策树,缺乏灵活性和效率。
  2. 该框架通过中央Supervisor动态分解查询,并自适应地将子任务分配给合适的模态工具。
  3. 实验表明,该框架在时间、对话返工和成本方面均优于分层基线,同时保持了准确性。

📝 摘要(中文)

本文提出了一种用于自主多模态查询处理的Agentic AI框架,该框架协调跨文本、图像、音频、视频和文档模态的专用工具。一个中央Supervisor动态地分解用户查询,将子任务委派给适合模态的工具(例如,对象检测、OCR、语音转录),并通过自适应路由策略而不是预定的决策树来综合结果。对于纯文本查询,该框架使用通过RouteLLM学习的路由,而非文本路径则使用SLM辅助的模态分解。在跨15个任务类别的2847个查询上进行评估,与匹配的分层基线相比,我们的框架在保持准确性对等的同时,实现了72%的准确答案时间缩短、85%的对话返工减少和67%的成本降低。这些结果表明,智能的集中式编排从根本上改善了多模态AI的部署经济性。

🔬 方法详解

问题定义:现有方法在处理多模态查询时,通常采用预定义的决策树或层级结构,缺乏灵活性,难以适应复杂和多样化的用户查询。此外,针对不同模态的工具集成和协调也存在挑战,导致效率低下和成本高昂。

核心思路:本文的核心思路是引入一个中央Supervisor,负责动态地分解用户查询,并根据查询内容和可用工具的特点,自适应地将子任务分配给最合适的模态工具。这种集中式编排能够更好地利用各种模态工具的优势,并优化整体处理流程。

技术框架:该框架包含一个中央Supervisor,以及各种模态工具(例如,对象检测、OCR、语音转录等)。对于文本查询,使用RouteLLM进行路由学习;对于非文本查询,使用SLM辅助模态分解。Supervisor根据查询类型和工具能力,动态地选择和调用合适的工具,并将结果进行综合。

关键创新:该框架的关键创新在于其自适应的工具编排策略。与传统的预定义决策树或层级结构不同,该框架能够根据查询内容和工具状态,动态地调整处理流程,从而提高效率和灵活性。RouteLLM和SLM辅助的模态分解也是重要的技术创新。

关键设计:RouteLLM的具体实现细节未知,但推测其可能是一个基于Transformer的模型,用于学习文本查询到合适工具的映射关系。SLM辅助模态分解的具体实现细节也未知,但推测其可能利用小型语言模型来理解非文本模态的内容,并将其分解为更易于处理的子任务。Supervisor的调度算法是影响性能的关键因素,但论文中没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在2847个查询的实验中,与分层基线相比,该框架实现了72%的准确答案时间缩短、85%的对话返工减少和67%的成本降低,同时保持了准确性对等。这些结果表明,该框架在多模态查询处理方面具有显著的优势。

🎯 应用场景

该研究成果可应用于智能客服、智能助手、多模态信息检索等领域。例如,用户可以通过语音或图像提出复杂的问题,系统能够自动分析问题,并利用各种模态工具来获取答案。该框架能够显著提高多模态AI系统的效率和用户体验,并降低部署成本。

📄 摘要(原文)

We present an agentic AI framework for autonomous multimodal query processing that coordinates specialized tools across text, image, audio, video, and document modalities. A central Supervisor dynamically decomposes user queries, delegates subtasks to modality-appropriate tools (e.g., object detection, OCR, speech transcription), and synthesizes results through adaptive routing strategies rather than predetermined decision trees. For text-only queries, the framework uses learned routing via RouteLLM, while non-text paths use SLM-assisted modality decomposition. Evaluated on 2,847 queries across 15 task categories, our framework achieves 72% reduction in time-to-accurate-answer, 85% reduction in conversational rework, and 67% cost reduction compared to the matched hierarchical baseline while maintaining accuracy parity. These results demonstrate that intelligent centralized orchestration fundamentally improves multimodal AI deployment economics.