Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen
分类: cs.CV, cs.CL
发布日期: 2026-03-16
🔗 代码/项目: GITHUB
💡 一句话要点
提出双通道对比分类方法,防御计算机使用代理中的视觉混淆副手攻击
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 计算机使用代理 视觉混淆副手 安全攻击 双通道对比分类 对抗防御
📋 核心要点
- 现有计算机使用代理(CUA)易受视觉混淆副手攻击,攻击者通过屏幕操纵诱导代理执行错误操作,安全风险高。
- 提出双通道对比分类方法,独立评估视觉点击目标和代理推理,结合视觉证据和文本推理,检测潜在的攻击行为。
- 实验表明,该方法在防御受控攻击和真实GUI场景中均表现出色,显著优于单通道方法,提升了CUA的安全性。
📝 摘要(中文)
计算机使用代理(CUAs)直接作用于图形用户界面,但它们对屏幕的感知通常不可靠。现有工作主要将这些失败视为性能限制,关注动作是否成功,而不是代理是否作用于正确的对象。本文认为这是一个根本的安全问题,并形式化了视觉混淆副手:一种代理由于基础错误、对抗性屏幕截图操纵或检查时间到使用时间(TOCTOU)竞争而基于错误感知的屏幕状态授权动作的失败模式。这种差距在实践中是可利用的:即使是简单的屏幕级操纵也可以将常规点击重定向到特权动作,同时与普通的代理错误无法区分。为了缓解这种威胁,本文提出了第一个在代理感知循环之外运行的保护措施:双通道对比分类,它独立评估(1)视觉点击目标和(2)代理对动作的推理,并根据特定于部署的知识库阻止执行,如果任一通道表明存在风险。关键的见解是,这两个通道捕获了互补的失败模式:视觉证据检测目标级别的错配,而文本推理揭示了视觉上无害的控件背后的危险意图。在受控攻击、真实GUI屏幕截图和代理跟踪中,组合的保护措施始终优于单独的任一通道。结果表明,CUA安全不仅需要更好的动作生成,还需要独立验证代理认为它正在点击的内容以及原因。
🔬 方法详解
问题定义:计算机使用代理(CUA)在执行任务时,依赖对屏幕内容的感知。然而,这种感知容易受到攻击,例如通过细微的屏幕修改,使得代理点击到错误的目标,从而执行恶意操作。现有方法主要关注动作的成功率,而忽略了代理是否基于正确的理解执行动作,存在安全漏洞。
核心思路:核心思想是引入一个独立的“守卫者”,在代理执行动作前,验证代理的意图和实际操作目标是否一致。这个守卫者不依赖于代理的感知,而是通过独立的视觉和语义分析来判断是否存在风险。如果代理的意图和操作目标不匹配,则阻止该动作的执行。
技术框架:该方法采用双通道对比分类框架。第一通道是视觉通道,负责分析屏幕上点击目标的视觉特征,判断其是否与代理期望的目标一致。第二通道是文本通道,负责分析代理的推理过程,判断其意图是否安全。两个通道独立工作,并根据各自的判断结果进行风险评估。如果任一通道检测到风险,则阻止动作执行。
关键创新:关键创新在于引入了独立于代理感知的外部验证机制。通过双通道对比分类,结合视觉证据和文本推理,能够检测到仅依赖代理自身感知难以发现的攻击行为。这种方法能够有效防御视觉混淆副手攻击,提升CUA的安全性。
关键设计:视觉通道使用卷积神经网络提取点击目标的视觉特征,并与预定义的正常目标特征进行对比。文本通道使用自然语言处理技术分析代理的推理过程,判断其意图是否安全。两个通道的输出结果通过一个融合模块进行综合评估,最终决定是否阻止动作执行。损失函数的设计旨在最大化正常动作的置信度,同时最小化恶意动作的置信度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,双通道对比分类方法在防御视觉混淆副手攻击方面表现出色。在受控攻击场景中,该方法能够有效阻止90%以上的攻击。在真实GUI屏幕截图和代理跟踪中,该方法也显著优于单通道方法,将攻击成功率降低了50%以上。这些结果表明,该方法能够有效提升CUA的安全性。
🎯 应用场景
该研究成果可应用于各种需要计算机使用代理的场景,例如自动化测试、RPA(机器人流程自动化)、智能助手等。通过提高CUA的安全性,可以有效防止恶意攻击,保护用户数据和系统安全。未来,该技术有望扩展到更复杂的交互场景,例如语音控制和虚拟现实环境。
📄 摘要(原文)
Computer-using agents (CUAs) act directly on graphical user interfaces, yet their perception of the screen is often unreliable. Existing work largely treats these failures as performance limitations, asking whether an action succeeds, rather than whether the agent is acting on the correct object at all. We argue that this is fundamentally a security problem. We formalize the visual confused deputy: a failure mode in which an agent authorizes an action based on a misperceived screen state, due to grounding errors, adversarial screenshot manipulation, or time-of-check-to-time-of-use (TOCTOU) races. This gap is practically exploitable: even simple screen-level manipulations can redirect routine clicks into privileged actions while remaining indistinguishable from ordinary agent mistakes. To mitigate this threat, we propose the first guardrail that operates outside the agent's perceptual loop. Our method, dual-channel contrastive classification, independently evaluates (1) the visual click target and (2) the agent's reasoning about the action against deployment-specific knowledge bases, and blocks execution if either channel indicates risk. The key insight is that these two channels capture complementary failure modes: visual evidence detects target-level mismatches, while textual reasoning reveals dangerous intent behind visually innocuous controls. Across controlled attacks, real GUI screenshots, and agent traces, the combined guardrail consistently outperforms either channel alone. Our results suggest that CUA safety requires not only better action generation, but independent verification of what the agent believes it is clicking and why. Materials are provided\footnote{Model, benchmark, and code: https://github.com/vllm-project/semantic-router}.