Adaptive Vision-Language Model Routing for Computer Use Agents
作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen
分类: cs.CL, cs.CV
发布日期: 2026-03-13
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应VLM路由框架,优化计算机使用Agent的GUI操作成本与精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机使用Agent 视觉-语言模型 自适应路由 GUI操作 成本优化
📋 核心要点
- 现有计算机使用Agent(CUA)对所有GUI操作使用单一VLM,忽略了不同操作的难度差异和VLM的性能差异。
- 提出自适应VLM路由(AVR)框架,根据操作难度和VLM置信度动态选择VLM,实现成本与精度的平衡。
- 实验表明,AVR在保证精度损失很小的情况下,可降低高达78%的推理成本,并能有效处理高风险操作。
📝 摘要(中文)
计算机使用Agent(CUAs)依赖视觉-语言模型(VLM)解释屏幕截图并预测工具调用,从而将自然语言指令转换为图形用户界面(GUI)操作,如点击、键盘输入和滚动。然而,不同VLM的定位精度差异显著,而当前的CUA系统通常将每个操作都路由到单个固定模型,忽略了操作的难度。我们提出了 extbf{自适应VLM路由}(AVR),该框架在CUA编排器和VLM池之间插入了一个轻量级的语义路由层。对于每个工具调用,AVR从多模态嵌入中估计操作难度,探测一个小VLM以测量置信度,并将操作路由到预测精度满足目标可靠性阈值的最廉价模型。对于具有先前UI交互记忆的 extit{warm} agent,检索到的上下文进一步缩小了小型和大型模型之间的能力差距,允许在不升级的情况下处理许多操作。我们将路由形式化为成本-精度权衡,推导出基于阈值的模型选择策略,并使用ScreenSpot-Pro定位数据以及OpenClaw agent路由基准评估AVR。在这些设置中,AVR预计可降低高达78%的推理成本,同时保持在全大型模型基线的2个百分点以内。当与Visual Confused Deputy guardrail结合使用时,AVR还会将高风险操作直接升级到最强大的可用模型,从而在一个路由框架内统一效率和安全性。
🔬 方法详解
问题定义:现有计算机使用Agent(CUA)在执行GUI操作时,通常使用单一的视觉-语言模型(VLM)。这种方法忽略了不同GUI操作的难度差异,以及不同VLM在处理不同难度操作时的性能差异。对于简单的操作,使用大型VLM会造成资源浪费;而对于复杂的操作,小型VLM可能无法胜任,导致精度下降。因此,如何在保证精度的前提下,降低CUA的计算成本是一个关键问题。
核心思路:AVR的核心思路是根据GUI操作的难度和VLM的置信度,动态地选择合适的VLM。对于简单的操作,选择小型、低成本的VLM;对于复杂的操作,选择大型、高精度的VLM。通过这种自适应的路由策略,可以在保证精度的前提下,显著降低计算成本。此外,对于具有记忆功能的Agent,可以利用历史交互信息来缩小小型VLM和大型VLM之间的性能差距。
技术框架:AVR框架主要包含以下几个模块:1) 难度估计模块:利用多模态嵌入(例如,文本指令和屏幕截图)来估计GUI操作的难度。2) 置信度探测模块:使用小型VLM对操作进行初步预测,并评估其置信度。3) 路由决策模块:根据操作难度和VLM置信度,选择合适的VLM。4) VLM池:包含多个不同大小和性能的VLM。5) Visual Confused Deputy guardrail:用于检测高风险操作,并将其直接路由到最强大的VLM。
关键创新:AVR最重要的技术创新点在于其自适应的VLM路由策略。与传统的固定VLM方法相比,AVR能够根据操作难度和VLM置信度动态地选择VLM,从而实现成本与精度的平衡。此外,AVR还引入了Visual Confused Deputy guardrail,用于处理高风险操作,进一步提高了系统的安全性。
关键设计:AVR的关键设计包括:1) 难度估计模块:可以使用预训练的多模态模型(例如,CLIP)来提取文本指令和屏幕截图的嵌入,并使用这些嵌入来预测操作难度。2) 置信度探测模块:可以使用小型VLM(例如,DistilBERT)来预测操作,并使用其输出的概率分布来评估置信度。3) 路由决策模块:可以使用基于阈值的策略来选择VLM。例如,如果操作难度低于某个阈值,且小型VLM的置信度高于某个阈值,则选择小型VLM;否则,选择大型VLM。4) 损失函数:可以使用交叉熵损失函数来训练VLM。5) 网络结构:VLM可以使用Transformer架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AVR在ScreenSpot-Pro和OpenClaw基准测试中表现出色。在保证精度损失小于2%的情况下,AVR能够降低高达78%的推理成本。此外,AVR还能够有效处理高风险操作,提高了系统的安全性。这些结果表明,AVR是一种高效、可靠的计算机使用Agent路由框架。
🎯 应用场景
该研究成果可广泛应用于各种需要人机交互的场景,例如自动化测试、智能助手、RPA(机器人流程自动化)等。通过降低计算成本和提高操作精度,可以提升用户体验和系统效率。未来,该技术有望应用于更复杂的任务,例如跨平台操作、多模态交互等。
📄 摘要(原文)
Computer Use Agents (CUAs) translate natural-language instructions into Graphical User Interface (GUI) actions such as clicks, keystrokes, and scrolls by relying on a Vision-Language Model (VLM) to interpret screenshots and predict grounded tool calls. However, grounding accuracy varies dramatically across VLMs, while current CUA systems typically route every action to a single fixed model regardless of difficulty. We propose \textbf{Adaptive VLM Routing} (AVR), a framework that inserts a lightweight semantic routing layer between the CUA orchestrator and a pool of VLMs. For each tool call, AVR estimates action difficulty from multimodal embeddings, probes a small VLM to measure confidence, and routes the action to the cheapest model whose predicted accuracy satisfies a target reliability threshold. For \textit{warm} agents with memory of prior UI interactions, retrieved context further narrows the capability gap between small and large models, allowing many actions to be handled without escalation. We formalize routing as a cost--accuracy trade-off, derive a threshold-based policy for model selection, and evaluate AVR using ScreenSpot-Pro grounding data together with the OpenClaw agent routing benchmark. Across these settings, AVR projects inference cost reductions of up to 78\% while staying within 2 percentage points of an all-large-model baseline. When combined with the Visual Confused Deputy guardrail, AVR also escalates high-risk actions directly to the strongest available model, unifying efficiency and safety within a single routing framework. Materials are also provided Model, benchmark, and code: https://github.com/vllm-project/semantic-router.