LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents

📄 arXiv: 2507.10610v1 📥 PDF

作者: Zihe Yan, Zhuosheng Zhang

分类: cs.CR, cs.AI

发布日期: 2025-07-13

备注: 10 pages, 9 figures


💡 一句话要点

提出LaSM,通过层级缩放机制防御GUI智能体上的弹出窗口攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 弹出窗口攻击 注意力机制 层级缩放 环境注入攻击

📋 核心要点

  1. 现有的GUI智能体易受弹出窗口攻击,恶意视觉元素干扰模型注意力,导致错误操作,且现有防御方法存在成本高或效果差的问题。
  2. 论文提出LaSM,通过分析攻击前后模型注意力差异,选择性地放大关键层的注意力和MLP模块,从而提高模型对任务相关区域的关注。
  3. 实验结果表明,LaSM在多种弹出窗口扰动和不同模型骨干上均能有效提高防御成功率,结合提示警报后鲁棒性可达98%以上。

📝 摘要(中文)

基于多模态大语言模型(MLLM)的图形用户界面(GUI)智能体在基于屏幕的交互任务中表现出强大的决策能力。然而,它们仍然极易受到基于弹出窗口的环境注入攻击,恶意视觉元素会转移模型的注意力,导致不安全或不正确的操作。现有的防御方法要么需要昂贵的重新训练,要么在归纳干扰下表现不佳。本文系统地研究了此类攻击如何改变GUI智能体的注意力行为,并揭示了正确和错误输出之间逐层注意力的差异模式。基于此,我们提出LaSM,一种层级缩放机制,选择性地放大关键层中的注意力和MLP模块。LaSM无需额外训练即可提高模型显著性与任务相关区域之间的一致性。在12种弹出窗口扰动和4种不同模型骨干上的大量实验表明,LaSM始终提高防御成功率。当与提示级别的警报相结合时,即使在强大的归纳攻击下,LaSM也能实现超过98%的鲁棒性。我们的研究结果表明,注意力错位是MLLM智能体中的一个核心漏洞,可以通过选择性的分层调制来有效解决。

🔬 方法详解

问题定义:论文旨在解决GUI智能体在面对弹出窗口攻击时,注意力被恶意视觉元素分散,导致决策错误的问题。现有防御方法,如对抗训练,通常需要大量计算资源进行重新训练,并且在面对新的、未知的攻击模式时泛化能力较差。此外,一些基于规则或过滤的方法难以应对复杂的攻击场景,容易出现误判或漏判。

核心思路:论文的核心思路是观察到攻击前后模型在不同层级的注意力分布存在差异。通过分析这些差异,确定对攻击最敏感的关键层,并选择性地增强这些层的注意力和MLP模块,从而使模型能够更好地关注任务相关的区域,忽略恶意视觉元素的干扰。这种方法无需重新训练,具有更好的泛化能力和效率。

技术框架:LaSM的核心在于一个层级缩放机制。首先,通过对比正常输入和受攻击输入的注意力分布,确定每一层的重要性。然后,对于重要的层,LaSM会放大该层的注意力和MLP模块的输出。具体来说,对于注意力模块,LaSM会增加注意力权重的幅度,使得模型更加关注重要的特征。对于MLP模块,LaSM会增加MLP输出的幅度,使得模型更加强调重要的信息。整个过程不需要额外的训练,可以即插即用。

关键创新:LaSM的关键创新在于其层级选择性和无训练的特性。与传统的防御方法不同,LaSM不是对所有层进行统一处理,而是根据每一层对攻击的敏感程度进行选择性增强。这种方法更加高效,并且能够更好地保留模型的原始能力。此外,LaSM不需要额外的训练,可以避免对抗训练带来的过拟合和泛化能力下降的问题。

关键设计:LaSM的关键设计包括:1) 如何量化每一层的重要性,论文采用注意力分布的差异作为指标;2) 如何选择性地放大注意力和MLP模块,论文采用一个缩放因子,该因子根据层的重要性进行调整;3) 如何确定缩放因子的范围,论文通过实验确定了一个合适的范围,以避免过度放大导致模型性能下降。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LaSM在12种不同的弹出窗口攻击下,显著提高了GUI智能体的防御成功率。例如,在某些攻击场景下,LaSM可以将防御成功率从50%以下提升到80%以上。与现有的防御方法相比,LaSM在无需重新训练的情况下,取得了更好的防御效果。当LaSM与提示级别的警报相结合时,即使在强归纳攻击下,也能实现超过98%的鲁棒性。

🎯 应用场景

LaSM可应用于各种基于GUI的智能体,例如自动化测试工具、RPA(机器人流程自动化)系统、智能助手等。通过提高这些智能体在恶意环境下的鲁棒性,可以有效防止因攻击导致的错误操作和数据泄露,保障系统的安全性和可靠性。该研究对于提升人机交互系统的安全性具有重要意义。

📄 摘要(原文)

Graphical user interface (GUI) agents built on multimodal large language models (MLLMs) have recently demonstrated strong decision-making abilities in screen-based interaction tasks. However, they remain highly vulnerable to pop-up-based environmental injection attacks, where malicious visual elements divert model attention and lead to unsafe or incorrect actions. Existing defense methods either require costly retraining or perform poorly under inductive interference. In this work, we systematically study how such attacks alter the attention behavior of GUI agents and uncover a layer-wise attention divergence pattern between correct and incorrect outputs. Based on this insight, we propose \textbf{LaSM}, a \textit{Layer-wise Scaling Mechanism} that selectively amplifies attention and MLP modules in critical layers. LaSM improves the alignment between model saliency and task-relevant regions without additional training. Extensive experiments across 12 types of pop-up perturbations and 4 different model backbones show that LaSM consistently enhances the defense success rate. When combined with prompt-level alerts, LaSM achieves over 98\% robustness even under strong inductive attacks. Our findings reveal that attention misalignment is a core vulnerability in MLLM agents and can be effectively addressed through selective layer-wise modulation.