Are GUI Agents Focused Enough? Automated Distraction via Semantic-level UI Element Injection

📄 arXiv: 2604.07831v1 📥 PDF

作者: Wenkui Yang, Chao Jin, Haisu Zhu, Weilin Luo, Derek Yuen, Kun Shao, Huaibo Huang, Junxian Duan, Jie Cao, Ran He

分类: cs.CR, cs.CL, cs.CV

发布日期: 2026-04-09

备注: 44 pages, 10 figures, public code will be available at https://github.com/HashTAG00002/UI-Injection


💡 一句话要点

提出语义级UI元素注入方法,用于评估GUI智能体的鲁棒性并发现潜在安全漏洞。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 红队测试 对抗攻击 UI元素注入 安全漏洞

📋 核心要点

  1. 现有GUI智能体红队测试方法依赖白盒访问或易被安全对齐缓解的提示注入,缺乏对实际威胁模型的有效评估。
  2. 提出语义级UI元素注入方法,通过叠加无害UI元素干扰智能体的视觉定位,模拟更真实的攻击场景。
  3. 实验表明,该方法能显著提高攻击成功率,且优化后的UI元素具有模型无关性和持久吸引性。

📝 摘要(中文)

现有的GUI智能体红队测试研究存在局限性。对抗性扰动通常需要白盒访问,这对于商业系统不可用,而提示注入正日益被更强的安全对齐所缓解。为了研究更实际威胁模型下的鲁棒性,我们提出了语义级UI元素注入,这是一种红队测试设置,通过将安全对齐且无害的UI元素叠加到屏幕截图上,来误导智能体的视觉定位。我们的方法使用模块化的Editor-Overlapper-Victim流水线和一个迭代搜索过程,该过程采样多个候选编辑,保留最佳累积叠加,并根据先前的失败调整未来的提示策略。在五个受害者模型上,我们优化的攻击使攻击成功率比最强受害者上的随机注入提高了高达4.4倍。此外,在一个源模型上优化的元素可以有效地转移到其他目标模型,表明存在模型无关的漏洞。在第一次成功攻击后,受害者仍然在超过15%的后续独立试验中点击攻击者控制的元素,而随机注入的比例低于1%,这表明注入的元素充当了持久的吸引子,而不是简单的视觉混乱。

🔬 方法详解

问题定义:现有GUI智能体的红队测试方法,如对抗扰动和提示注入,存在局限性。对抗扰动需要白盒访问,这在商业环境中通常不可行。提示注入则容易被更强的安全对齐机制所防御。因此,需要一种更贴近实际威胁模型的评估方法,以发现GUI智能体在真实场景中的潜在安全漏洞。

核心思路:核心思路是通过在GUI界面上叠加语义相关的、但具有误导性的UI元素,来干扰GUI智能体的视觉感知和决策过程。这些UI元素在语义上与原始界面内容相关,但其功能或位置会引导智能体做出错误的操作。这种方法模拟了攻击者在用户界面上注入恶意元素,从而控制智能体的行为。

技术框架:该方法采用一个模块化的Editor-Overlapper-Victim流水线。Editor模块负责生成候选的UI元素编辑方案。Overlapper模块将这些UI元素叠加到原始屏幕截图上。Victim模块是待测试的GUI智能体,它接收叠加了UI元素的屏幕截图作为输入,并执行相应的操作。此外,还包含一个迭代搜索过程,该过程采样多个候选编辑,保留最佳累积叠加,并根据先前的失败调整未来的提示策略。

关键创新:关键创新在于提出了语义级UI元素注入的概念,并将其应用于GUI智能体的红队测试。与传统的对抗扰动和提示注入相比,该方法更贴近实际的攻击场景,并且能够发现模型无关的漏洞。此外,迭代搜索过程能够有效地优化UI元素的叠加方案,从而提高攻击成功率。

关键设计:Editor模块的设计需要考虑UI元素的语义相关性,例如,在搜索框旁边叠加一个假的“搜索”按钮。Overlapper模块需要保证叠加的UI元素不会与原始界面元素重叠,并且具有一定的视觉吸引力。迭代搜索过程需要设计合适的奖励函数,以评估UI元素叠加方案的有效性。例如,可以将攻击成功率作为奖励函数,并使用强化学习算法来优化UI元素的叠加方案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著提高攻击成功率,在最强的受害者模型上,攻击成功率比随机注入提高了高达4.4倍。此外,在一个源模型上优化的UI元素可以有效地转移到其他目标模型,表明存在模型无关的漏洞。在第一次成功攻击后,受害者仍然在超过15%的后续独立试验中点击攻击者控制的元素,而随机注入的比例低于1%。

🎯 应用场景

该研究成果可应用于评估和提升GUI智能体的安全性与鲁棒性。通过模拟真实攻击场景,发现潜在漏洞,并为开发更安全的GUI智能体提供指导。此外,该方法还可用于评估不同GUI智能体模型的抗攻击能力,为用户选择合适的智能体提供参考。

📄 摘要(原文)

Existing red-teaming studies on GUI agents have important limitations. Adversarial perturbations typically require white-box access, which is unavailable for commercial systems, while prompt injection is increasingly mitigated by stronger safety alignment. To study robustness under a more practical threat model, we propose Semantic-level UI Element Injection, a red-teaming setting that overlays safety-aligned and harmless UI elements onto screenshots to misdirect the agent's visual grounding. Our method uses a modular Editor-Overlapper-Victim pipeline and an iterative search procedure that samples multiple candidate edits, keeps the best cumulative overlay, and adapts future prompt strategies based on previous failures. Across five victim models, our optimized attacks improve attack success rate by up to 4.4x over random injection on the strongest victims. Moreover, elements optimized on one source model transfer effectively to other target models, indicating model-agnostic vulnerabilities. After the first successful attack, the victim still clicks the attacker-controlled element in more than 15% of later independent trials, versus below 1% for random injection, showing that the injected element acts as a persistent attractor rather than simple visual clutter.