EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection

📄 arXiv: 2505.14289v1 📥 PDF

作者: Yijie Lu, Tianjie Ju, Manman Zhao, Xinbei Ma, Yuan Guo, ZhuoSheng Zhang

分类: cs.AI

发布日期: 2025-05-20


💡 一句话要点

EVA:通过演化间接提示注入进行GUI代理的红队测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI代理 红队测试 间接提示注入 对抗攻击 多模态安全

📋 核心要点

  1. 现有的GUI代理容易受到间接提示注入攻击,攻击者通过操纵GUI元素来误导代理执行恶意操作。
  2. EVA框架通过闭环优化,动态调整对抗性提示,根据代理的注意力分布演化攻击策略,提高攻击成功率。
  3. 实验表明,EVA在多种GUI代理和场景下显著提升了攻击成功率,并揭示了不同模型间共享的脆弱性。

📝 摘要(中文)

随着多模态代理越来越多地被训练来操作图形用户界面(GUI)以完成用户任务,它们面临着来自间接提示注入的日益增长的威胁。在这种攻击中,误导性指令被嵌入到代理的视觉环境中,例如弹出窗口或聊天消息,并被错误地解释为预期任务的一部分。一个典型的例子是环境注入,其中GUI元素被操纵以影响代理行为,而无需直接修改用户提示。为了应对这些新兴的攻击,我们提出了EVA,一个用于间接提示注入的红队测试框架,它通过持续监控代理在GUI上的注意力分布并响应式地更新对抗性线索、关键词、措辞和布局,将攻击转化为闭环优化。与先前生成固定提示而不考虑模型如何分配视觉注意力的单次方法相比,EVA动态适应新兴的注意力热点,从而产生更高的攻击成功率和更大的跨不同GUI场景的可迁移性。我们在六个广泛使用的通用和专用GUI代理上,在诸如弹出窗口操纵、基于聊天的网络钓鱼、支付和电子邮件撰写等实际设置中评估了EVA。实验结果表明,EVA显著提高了相对于静态基线的成功率。在目标不可知约束下,即攻击者不知道代理的任务意图,EVA仍然可以发现有效的模式。值得注意的是,我们发现注入风格在模型之间具有良好的迁移性,揭示了GUI代理中共享的行为偏差。这些结果表明,演化间接提示注入不仅是红队测试代理的强大工具,而且还可以揭示其多模态决策中的常见漏洞。

🔬 方法详解

问题定义:论文旨在解决GUI代理在面对间接提示注入攻击时的脆弱性问题。现有的攻击方法通常采用静态的、一次性的提示注入,无法有效应对代理的动态行为和注意力变化。这些方法忽略了代理如何处理视觉信息,导致攻击效果不佳。

核心思路:论文的核心思路是将攻击过程转化为一个闭环优化问题。通过持续监控代理在GUI上的注意力分布,并根据这些信息动态调整对抗性提示,使得攻击能够适应代理的行为模式。这种演化式的攻击方式能够更有效地利用代理的漏洞,提高攻击成功率。

技术框架:EVA框架包含以下主要模块:1) 代理监控模块:负责监控代理在GUI上的注意力分布,例如通过记录代理点击、悬停等操作的位置。2) 提示生成模块:根据代理的注意力分布,生成对抗性提示,包括关键词、措辞和布局等。3) 攻击执行模块:将生成的对抗性提示注入到GUI环境中,例如通过弹出窗口或聊天消息。4) 评估模块:评估攻击的成功率,并根据评估结果调整提示生成策略。整个过程形成一个闭环,不断优化攻击效果。

关键创新:EVA的关键创新在于其动态性和自适应性。与传统的静态攻击方法不同,EVA能够根据代理的实时行为和注意力分布,动态调整攻击策略。这种演化式的攻击方式能够更有效地利用代理的漏洞,提高攻击成功率和泛化能力。

关键设计:EVA的关键设计包括:1) 注意力分布的建模:如何准确地捕捉和表示代理在GUI上的注意力分布是关键。论文可能采用了热力图、点击序列等方式来建模注意力。2) 提示生成策略:如何根据注意力分布生成有效的对抗性提示是另一个关键。论文可能采用了遗传算法、梯度下降等优化方法来搜索最佳的提示组合。3) 目标函数的设计:如何定义攻击的成功率,并将其转化为一个可优化的目标函数是重要的。目标函数可能包括代理执行错误操作的概率、代理泄露敏感信息的概率等。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,EVA在多种GUI代理和场景下显著提升了攻击成功率,相较于静态基线方法,攻击成功率提升显著。即使在攻击者不知道代理任务意图的情况下,EVA仍然能够发现有效的攻击模式。此外,研究发现,不同GUI代理之间存在共享的行为偏差,这意味着攻击策略可以在不同模型之间迁移。

🎯 应用场景

该研究成果可应用于评估和提升GUI代理的安全性,帮助开发者发现和修复潜在的漏洞。此外,该方法还可以用于训练更鲁棒的代理,使其能够更好地抵抗恶意攻击。在金融、医疗等对安全性要求较高的领域,该研究具有重要的应用价值和实际意义。

📄 摘要(原文)

As multimodal agents are increasingly trained to operate graphical user interfaces (GUIs) to complete user tasks, they face a growing threat from indirect prompt injection, attacks in which misleading instructions are embedded into the agent's visual environment, such as popups or chat messages, and misinterpreted as part of the intended task. A typical example is environmental injection, in which GUI elements are manipulated to influence agent behavior without directly modifying the user prompt. To address these emerging attacks, we propose EVA, a red teaming framework for indirect prompt injection which transforms the attack into a closed loop optimization by continuously monitoring an agent's attention distribution over the GUI and updating adversarial cues, keywords, phrasing, and layout, in response. Compared with prior one shot methods that generate fixed prompts without regard for how the model allocates visual attention, EVA dynamically adapts to emerging attention hotspots, yielding substantially higher attack success rates and far greater transferability across diverse GUI scenarios. We evaluate EVA on six widely used generalist and specialist GUI agents in realistic settings such as popup manipulation, chat based phishing, payments, and email composition. Experimental results show that EVA substantially improves success rates over static baselines. Under goal agnostic constraints, where the attacker does not know the agent's task intent, EVA still discovers effective patterns. Notably, we find that injection styles transfer well across models, revealing shared behavioral biases in GUI agents. These results suggest that evolving indirect prompt injection is a powerful tool not only for red teaming agents, but also for uncovering common vulnerabilities in their multimodal decision making.