One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

作者: Mayank Saini Arit Kumar Bishwas

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-12

备注: 19 pages, 3 figures

💡 一句话要点

提出一种自适应工具编排框架，用于自主多模态查询处理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态查询 工具编排 自适应路由 Agentic AI 语言模型 模态分解

📋 核心要点

现有方法在处理多模态查询时，通常依赖预定义的决策树，缺乏灵活性和效率。
该框架通过中央Supervisor动态分解查询，并自适应地将子任务分配给合适的模态工具。
实验表明，该框架在时间、对话返工和成本方面均优于分层基线，同时保持了准确性。

📝 摘要（中文）

本文提出了一种用于自主多模态查询处理的Agentic AI框架，该框架协调跨文本、图像、音频、视频和文档模态的专用工具。一个中央Supervisor动态地分解用户查询，将子任务委派给适合模态的工具（例如，对象检测、OCR、语音转录），并通过自适应路由策略而不是预定的决策树来综合结果。对于纯文本查询，该框架使用通过RouteLLM学习的路由，而非文本路径则使用SLM辅助的模态分解。在跨15个任务类别的2847个查询上进行评估，与匹配的分层基线相比，我们的框架在保持准确性对等的同时，实现了72%的准确答案时间缩短、85%的对话返工减少和67%的成本降低。这些结果表明，智能的集中式编排从根本上改善了多模态AI的部署经济性。

🔬 方法详解

问题定义：现有方法在处理多模态查询时，通常采用预定义的决策树或层级结构，缺乏灵活性，难以适应复杂和多样化的用户查询。此外，针对不同模态的工具集成和协调也存在挑战，导致效率低下和成本高昂。

核心思路：本文的核心思路是引入一个中央Supervisor，负责动态地分解用户查询，并根据查询内容和可用工具的特点，自适应地将子任务分配给最合适的模态工具。这种集中式编排能够更好地利用各种模态工具的优势，并优化整体处理流程。

技术框架：该框架包含一个中央Supervisor，以及各种模态工具（例如，对象检测、OCR、语音转录等）。对于文本查询，使用RouteLLM进行路由学习；对于非文本查询，使用SLM辅助模态分解。Supervisor根据查询类型和工具能力，动态地选择和调用合适的工具，并将结果进行综合。

关键创新：该框架的关键创新在于其自适应的工具编排策略。与传统的预定义决策树或层级结构不同，该框架能够根据查询内容和工具状态，动态地调整处理流程，从而提高效率和灵活性。RouteLLM和SLM辅助的模态分解也是重要的技术创新。

关键设计：RouteLLM的具体实现细节未知，但推测其可能是一个基于Transformer的模型，用于学习文本查询到合适工具的映射关系。SLM辅助模态分解的具体实现细节也未知，但推测其可能利用小型语言模型来理解非文本模态的内容，并将其分解为更易于处理的子任务。Supervisor的调度算法是影响性能的关键因素，但论文中没有详细描述。

🖼️ 关键图片

📊 实验亮点

在2847个查询的实验中，与分层基线相比，该框架实现了72%的准确答案时间缩短、85%的对话返工减少和67%的成本降低，同时保持了准确性对等。这些结果表明，该框架在多模态查询处理方面具有显著的优势。

🎯 应用场景

该研究成果可应用于智能客服、智能助手、多模态信息检索等领域。例如，用户可以通过语音或图像提出复杂的问题，系统能够自动分析问题，并利用各种模态工具来获取答案。该框架能够显著提高多模态AI系统的效率和用户体验，并降低部署成本。

📄 摘要（原文）

We present an agentic AI framework for autonomous multimodal query processing that coordinates specialized tools across text, image, audio, video, and document modalities. A central Supervisor dynamically decomposes user queries, delegates subtasks to modality-appropriate tools (e.g., object detection, OCR, speech transcription), and synthesizes results through adaptive routing strategies rather than predetermined decision trees. For text-only queries, the framework uses learned routing via RouteLLM, while non-text paths use SLM-assisted modality decomposition. Evaluated on 2,847 queries across 15 task categories, our framework achieves 72% reduction in time-to-accurate-answer, 85% reduction in conversational rework, and 67% cost reduction compared to the matched hierarchical baseline while maintaining accuracy parity. These results demonstrate that intelligent centralized orchestration fundamentally improves multimodal AI deployment economics.

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理