A History-Aware Visually Grounded Critic for Computer Use Agents
作者: Jaewoo Lee, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Supriyo Chakraborty, Kartik Balasubramaniam, Sambit Sahu, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
分类: cs.AI, cs.CL, cs.CV
发布日期: 2026-06-09
备注: Code: https://github.com/G-JWLee/HiViG
💡 一句话要点
提出HiViG框架以解决CUA决策短视与视觉缺失问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机使用代理 视觉基础批评 历史感知 多模态学习 图形用户界面 决策优化 跨平台泛化
📋 核心要点
- 现有的计算机使用代理批评模型主要面临短视决策和缺乏视觉基础的问题,导致错误执行。
- 论文提出的HiViG框架通过历史感知和视觉基础的批评,改善了决策过程,增强了对错误的检测能力。
- 实验结果显示,HiViG在多个平台上均优于现有模型,成功率分别提升5.8%和9.0%,证明了其有效性。
📝 摘要(中文)
本研究针对计算机使用代理(CUA)在复杂图形用户界面(GUI)环境中的表现提升,提出了一种历史感知的视觉基础批评模型HiViG。现有批评模型存在短视决策循环和缺乏视觉基础的不足。HiViG通过多模态批评者,利用真实GUI轨迹将过去的交互抽象为紧凑记录,并在测试时整合到策略决策循环中,提供宏观动作历史和视觉基础的批评。实验结果表明,HiViG在多个基准测试中超越现有模型,成功率提升显著,且在跨平台上表现出强大的泛化能力。
🔬 方法详解
问题定义:本研究旨在解决现有计算机使用代理(CUA)批评模型在复杂GUI环境中短视决策和缺乏视觉基础的问题。这些不足导致代理在执行任务时容易犯错。
核心思路:HiViG框架通过引入历史感知和视觉基础的批评机制,能够在决策过程中综合考虑过去的交互记录,从而提高决策的准确性和可靠性。
技术框架:HiViG的整体架构包括多模态批评者模块和策略决策循环。批评者模块负责将历史交互记录进行抽象,并在测试时提供宏观动作历史和视觉基础的反馈。
关键创新:HiViG的主要创新在于其历史感知的设计,使得批评者能够在决策时考虑到过去的动作,从而避免短视决策。同时,视觉基础的批评机制能够实时验证执行坐标,减少错误。
关键设计:在技术细节上,HiViG采用了特定的损失函数来优化批评者的性能,并设计了适应不同平台的网络结构,以确保其在多种环境下的有效性。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HiViG在多个基准测试中表现优异,相较于最强基线,Qwen3-VL-32B的成功率提升5.8%,Gemini-3-Flash的成功率提升9.0%。此外,HiViG在跨平台的泛化能力上也表现出色,验证了其有效性。
🎯 应用场景
HiViG框架的潜在应用领域包括各种需要人机交互的场景,如网页浏览、移动应用和桌面软件等。其能够有效提升计算机使用代理的决策能力,减少错误执行,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Various test-time interventions for Computer Use Agents (CUAs), including critic models, have been developed to improve performance through pre-execution action evaluation in complex Graphical User Interface (GUI) environments. However, existing critics suffer from two key limitations: they (1) focus primarily on short-sighted decision loops (e.g., forgetting earlier actions) and (2) lack the visual grounding needed to detect flawed actions (e.g., clicking wrong UI elements). To address these, we introduce HiViG, a History-aware Visually Grounded test-time framework, built around a multimodal critic trained on real GUI trajectories to abstract past interactions into a compact record and to evaluate actions with visual grounding. At test time, HiViG integrates the critic into the policy decision loop to provide macro-action history, which summarizes the policy's completed achievements, and visually grounded critique, which verifies raw execution coordinates against the current screenshot to intercept errors before execution. Across web, mobile, and desktop benchmarks, HiViG consistently outperforms existing scalar and verbal critics, improving average success rates over the strongest baseline by 5.8% for Qwen3-VL-32B and 9.0% for Gemini-3-Flash, and demonstrates strong cross-platform generalization. Ablations show that macro-action history mitigates short-sighted planning and visually grounded critique reduces execution errors, with both components being critical for test-time scaling in long-horizon GUI tasks.