SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning
作者: Haoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo
分类: cs.CV, cs.CL
发布日期: 2026-03-24
备注: Code: https://github.com/MAC-AutoML/SpecEyes
💡 一句话要点
SpecEyes:通过推测性感知与规划加速Agentic多模态LLM
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic MLLM 推测性执行 多模态学习 大语言模型 认知门控 异构并行 加速框架
📋 核心要点
- Agentic MLLM依赖串行感知、推理和工具调用,导致延迟高、并发性差,成为性能瓶颈。
- SpecEyes利用轻量级MLLM进行推测性规划,预测执行轨迹,提前终止工具链,降低延迟。
- SpecEyes通过认知门控机制和异构并行漏斗,在保证准确率的同时,显著提升系统吞吐量。
📝 摘要(中文)
Agentic多模态大语言模型(MLLM),如OpenAI o3和Gemini Agentic Vision,通过迭代的视觉工具调用实现了卓越的推理能力。然而,级联的感知、推理和工具调用循环引入了显著的顺序开销,这种开销被称为agentic深度,导致了过高的延迟并严重限制了系统级的并发性。为此,我们提出了SpecEyes,一个agentic级别的推测性加速框架,打破了这种顺序瓶颈。我们的核心思想是,一个轻量级的、无工具的MLLM可以作为推测性规划器来预测执行轨迹,从而在不牺牲准确性的前提下提前终止昂贵的工具链。为了调节这种推测性规划,我们引入了一种基于答案可分离性的认知门控机制,该机制量化了模型在不需要oracle标签的情况下进行自我验证的置信度。此外,我们设计了一个异构并行漏斗,利用小模型的无状态并发性来掩盖大模型的有状态串行执行,从而最大限度地提高系统吞吐量。在V* Bench、HR-Bench和POPE上的大量实验表明,SpecEyes实现了比agentic基线1.1-3.35倍的加速,同时保持甚至提高了准确性(高达+6.7%),从而提高了并发工作负载下的服务吞吐量。
🔬 方法详解
问题定义:Agentic多模态大语言模型在执行任务时,需要迭代地进行感知、推理和工具调用,形成一个串行的流程。这种串行性导致了显著的延迟,限制了系统的并发处理能力,尤其是在需要频繁调用外部工具的场景下,问题尤为突出。现有方法难以在保证准确性的前提下,有效地降低这种延迟。
核心思路:SpecEyes的核心思路是引入一个轻量级的、无需工具调用的MLLM作为“推测性规划器”。该规划器预测Agentic MLLM的执行轨迹,如果预测结果足够可信,则可以提前终止昂贵的工具链,从而减少整体延迟。这种推测性执行类似于CPU中的分支预测,旨在通过预测未来步骤来加速执行过程。
技术框架:SpecEyes框架主要包含三个核心组件:推测性规划器(Speculative Planner)、认知门控机制(Cognitive Gating Mechanism)和异构并行漏斗(Heterogeneous Parallel Funnel)。推测性规划器是一个轻量级的MLLM,用于预测执行轨迹。认知门控机制评估规划器的置信度,决定是否采纳其预测结果。异构并行漏斗则利用小模型的无状态并发性来掩盖大模型的有状态串行执行,从而提高系统吞吐量。整体流程是:首先,推测性规划器预测执行轨迹;然后,认知门控机制评估预测结果的置信度;如果置信度足够高,则采纳预测结果并提前终止工具链;否则,执行完整的Agentic MLLM流程。
关键创新:SpecEyes的关键创新在于将推测性执行的思想引入到Agentic MLLM中,通过轻量级模型预测执行轨迹,从而避免了昂贵的工具调用。此外,认知门控机制提供了一种无需oracle标签的自我验证方法,能够有效地调节推测性规划的准确性。异构并行漏斗的设计则充分利用了不同模型的特性,实现了更高的系统吞吐量。
关键设计:认知门控机制基于答案可分离性,通过量化模型对不同答案的区分度来评估置信度。具体而言,它计算模型输出的概率分布的熵,熵越低,表示模型对某个答案的置信度越高。异构并行漏斗的设计则需要仔细平衡小模型和大模型的计算资源分配,以最大化系统吞吐量。具体的参数设置和网络结构选择取决于具体的应用场景和模型选择。
🖼️ 关键图片
📊 实验亮点
SpecEyes在V* Bench、HR-Bench和POPE等基准测试中取得了显著的性能提升。相比于Agentic基线,SpecEyes实现了1.1-3.35倍的加速,同时保持甚至提高了准确性(高达+6.7%)。这些结果表明,SpecEyes能够有效地降低Agentic MLLM的延迟,并提高系统吞吐量。
🎯 应用场景
SpecEyes具有广泛的应用前景,例如智能客服、自动驾驶、机器人导航等需要快速响应和高并发处理的场景。通过降低Agentic MLLM的延迟,SpecEyes可以提升用户体验,并支持更大规模的并发请求。未来,该技术有望推动Agentic MLLM在更多实际应用中的部署。
📄 摘要(原文)
Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.