One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries
作者: Mayank Saini, Arit Kumar Bishwas
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-12 (更新: 2026-03-13)
备注: 19 pages, 3 figures; v2: corrected author metadata
💡 一句话要点
提出一种自适应工具编排框架以优化多模态查询处理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态查询 智能AI框架 动态路由 任务分解 工具编排
📋 核心要点
- 现有多模态查询处理方法往往依赖于固定的决策树,缺乏灵活性和适应性,导致效率低下。
- 本文提出的框架通过中心监督者动态分解用户查询,智能地将任务分配给合适的模态工具,提升了处理效率。
- 实验结果显示,该框架在时间、对话重做和成本上均显著优于传统的层次基线,且保持了相同的准确性。
📝 摘要(中文)
本文提出了一种自主多模态查询处理的智能AI框架,该框架协调文本、图像、音频、视频和文档等多种专用工具。中心监督者动态分解用户查询,将子任务委派给适合的工具(如目标检测、OCR、语音转录),并通过自适应路由策略合成结果,而非依赖预设的决策树。对于仅文本的查询,该框架通过RouteLLM实现学习路由,而非文本路径则采用SLM辅助的模态分解。经过对2847个查询在15个任务类别上的评估,框架在准确回答的时间上减少了72%,对话重做减少了85%,成本降低了67%,同时保持了准确性。这些结果表明,智能集中编排显著改善了多模态AI的部署经济性。
🔬 方法详解
问题定义:本文旨在解决现有多模态查询处理方法的灵活性不足和效率低下的问题,尤其是在复杂查询场景下。现有方法通常依赖于固定的决策树,难以适应多变的用户需求。
核心思路:论文提出的框架通过中心监督者动态分解用户查询,并将子任务委派给适合的工具,从而实现高效的多模态查询处理。该设计使得系统能够根据查询内容灵活选择处理路径,提高了响应速度和准确性。
技术框架:整体架构包括中心监督者、模态工具库和自适应路由策略。中心监督者负责解析用户查询并分解任务,模态工具库包含不同类型的处理工具(如OCR、目标检测等),自适应路由策略则根据查询类型选择合适的工具进行处理。
关键创新:最重要的技术创新在于使用动态路由策略替代传统的固定决策树,使得系统能够根据实时反馈调整处理路径,从而提高了处理效率和用户体验。
关键设计:框架中采用了RouteLLM进行文本查询的学习路由,而非文本查询则使用SLM辅助的模态分解。关键参数和损失函数的设置经过多次实验优化,以确保系统在不同任务上的表现均衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的框架在2847个查询的评估中,时间到准确答案减少了72%,对话重做减少了85%,成本降低了67%。这些显著的性能提升相较于传统的层次基线,展示了智能集中编排的优势。
🎯 应用场景
该研究的潜在应用场景包括智能客服、自动化文档处理、跨媒体信息检索等领域。通过提高多模态查询处理的效率和准确性,能够显著提升用户体验,并在商业和科研中创造更大的价值。未来,该框架还可以扩展到更多模态和任务类型,进一步推动多模态AI的发展。
📄 摘要(原文)
We present an agentic AI framework for autonomous multimodal query processing that coordinates specialized tools across text, image, audio, video, and document modalities. A central Supervisor dynamically decomposes user queries, delegates subtasks to modality-appropriate tools (e.g., object detection, OCR, speech transcription), and synthesizes results through adaptive routing strategies rather than predetermined decision trees. For text-only queries, the framework uses learned routing via RouteLLM, while non-text paths use SLM-assisted modality decomposition. Evaluated on 2,847 queries across 15 task categories, our framework achieves 72% reduction in time-to-accurate-answer, 85% reduction in conversational rework, and 67% cost reduction compared to the matched hierarchical baseline while maintaining accuracy parity. These results demonstrate that intelligent centralized orchestration fundamentally improves multimodal AI deployment economics.