Preference Redirection via Attention Concentration: An Attack on Computer Use Agents

📄 arXiv: 2604.08005v1 📥 PDF

作者: Dominik Seip, Matthias Hein

分类: cs.LG

发布日期: 2026-04-09


💡 一句话要点

提出PRAC:通过注意力集中重定向计算机使用代理偏好的攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机使用代理 视觉攻击 注意力机制 对抗性补丁 多模态安全

📋 核心要点

  1. 现有的计算机使用代理(CUA)研究主要关注语言模态的安全,忽略了视觉模态的潜在漏洞,这使得CUA容易受到视觉攻击。
  2. 论文提出PRAC攻击,通过在GUI界面中引入不易察觉的对抗性补丁,诱导CUA将注意力集中在攻击者预设的目标产品上,从而改变其选择偏好。
  3. 实验证明,PRAC攻击能够成功操纵CUA在在线购物平台上的选择行为,并且该攻击具有一定的泛化能力,可以迁移到同一模型的微调版本上。

📝 摘要(中文)

多模态基础模型的进步推动了计算机使用代理(CUA)的发展,使其能够自主地与GUI环境交互。由于CUA不受特定工具的限制,它们可以自动化更复杂的代理任务,但也带来了新的安全漏洞。先前的工作主要集中在语言模态上,而视觉模态的脆弱性受到的关注较少。本文介绍了一种新的攻击方法PRAC,与直接针对VLM输出的先前工作不同,PRAC通过将模型的注意力重定向到隐蔽的对抗性补丁来操纵模型的内部偏好。我们证明了PRAC能够在一个在线购物平台上操纵CUA的选择过程,使其倾向于选择目标产品。虽然我们创建攻击需要白盒访问模型,但我们表明我们的攻击可以推广到同一模型的微调版本,这构成了一个关键威胁,因为多家公司正在基于开放权重模型构建特定的CUA。

🔬 方法详解

问题定义:论文旨在解决计算机使用代理(CUA)在视觉模态上的安全漏洞问题。现有的CUA研究主要关注语言模态的安全性,忽略了视觉输入可能存在的攻击风险。因此,CUA容易受到恶意视觉信息的操纵,导致其行为偏离预期,例如错误地选择商品或执行危险操作。

核心思路:论文的核心思路是通过操纵CUA的注意力机制,使其将注意力集中在攻击者预先设定的目标区域(例如,包含目标产品的图像区域)上。通过这种方式,即使CUA的整体视觉输入没有发生显著变化,攻击者也可以影响CUA的决策过程,使其选择攻击者期望的结果。

技术框架:PRAC攻击主要包含以下几个步骤:1) 对抗补丁生成:利用白盒访问权限,针对目标CUA模型生成对抗性补丁。该补丁被设计成不易被人眼察觉,但能够显著影响模型的注意力分布。2) 补丁嵌入:将生成的对抗性补丁嵌入到GUI界面中,通常是叠加在目标产品或相关区域上。3) CUA交互:CUA与被嵌入补丁的GUI界面进行交互,例如浏览商品、搜索信息等。4) 偏好重定向:由于对抗性补丁的影响,CUA的注意力被重定向到目标区域,从而改变其选择偏好。

关键创新:PRAC攻击的关键创新在于它不是直接修改VLM的输出,而是通过操纵模型的内部注意力机制来实现攻击目的。这种攻击方式更加隐蔽,难以被传统的防御方法检测到。此外,PRAC攻击具有一定的泛化能力,可以迁移到同一模型的微调版本上,这使得攻击更加具有威胁性。

关键设计:对抗补丁的生成通常采用基于梯度的方法,例如FGSM或PGD。攻击者需要访问目标CUA模型的梯度信息,以便计算出能够最大程度地影响模型注意力分布的对抗性扰动。对抗补丁的大小和位置需要仔细设计,以保证其隐蔽性,同时又能有效地重定向CUA的注意力。损失函数通常包含两部分:一部分是用于最大化目标区域的注意力权重,另一部分是用于约束对抗补丁的大小,以保证其不易被人眼察觉。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PRAC攻击能够成功操纵CUA在在线购物平台上的选择行为,使其倾向于选择目标产品。即使在对抗补丁非常小且不易察觉的情况下,PRAC攻击仍然能够有效地重定向CUA的注意力,并改变其选择偏好。此外,实验还证明了PRAC攻击具有一定的泛化能力,可以迁移到同一模型的微调版本上,这表明该攻击具有较高的威胁性。

🎯 应用场景

该研究揭示了计算机使用代理在视觉安全方面存在的潜在风险,对开发更安全的CUA系统具有重要意义。研究成果可以应用于开发针对视觉攻击的防御机制,例如对抗训练、输入验证等。此外,该研究也提醒开发者在构建CUA系统时,需要充分考虑视觉模态的安全问题,避免因视觉漏洞导致的安全风险。

📄 摘要(原文)

Advancements in multimodal foundation models have enabled the development of Computer Use Agents (CUAs) capable of autonomously interacting with GUI environments. As CUAs are not restricted to certain tools, they allow to automate more complex agentic tasks but at the same time open up new security vulnerabilities. While prior work has concentrated on the language modality, the vulnerability of the vision modality has received less attention. In this paper, we introduce PRAC, a novel attack that, unlike prior work targeting the VLM output directly, manipulates the model's internal preferences by redirecting its attention toward a stealthy adversarial patch. We show that PRAC is able to manipulate the selection process of a CUA on an online shopping platform towards a chosen target product. While we require white-box access to the model for the creation of the attack, we show that our attack generalizes to fine-tuned versions of the same model, presenting a critical threat as multiple companies build specific CUAs based on open weights models.