VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation

📄 arXiv: 2507.06899v2 📥 PDF

作者: Ziang Ye, Yang Zhang, Wentao Shi, Xiaoyu You, Fuli Feng, Tat-Seng Chua

分类: cs.CL, cs.AI

发布日期: 2025-07-09 (更新: 2025-09-24)

备注: Accepted in COLM2025


💡 一句话要点

VisualTrap:一种针对GUI智能体的隐蔽后门攻击,通过视觉定位操纵实现

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 后门攻击 视觉定位 恶意数据 视觉触发器

📋 核心要点

  1. 现有GUI智能体存在安全漏洞,尤其是在视觉定位环节,容易受到后门攻击,导致行为被恶意操控。
  2. 提出VisualTrap方法,通过在视觉定位预训练阶段注入恶意数据,诱导智能体将文本计划错误地定位到触发位置。
  3. 实验证明,VisualTrap仅需少量恶意数据即可有效劫持视觉定位,且攻击具有隐蔽性和泛化性。

📝 摘要(中文)

基于大型视觉语言模型(LVLMs)的图形用户界面(GUI)智能体已经成为自动化人机交互的一种革命性方法,能够自主操作个人设备(例如,手机)或设备内的应用程序,以类人的方式执行复杂的现实世界任务。然而,它们与个人设备的紧密集成引发了重大的安全问题,包括后门攻击在内的许多威胁在很大程度上仍未被探索。这项工作揭示了GUI智能体的视觉定位——将文本计划映射到GUI元素——可能引入漏洞,从而实现新型的后门攻击。通过针对视觉定位的后门攻击,即使给出正确的任务解决计划,智能体的行为也可能受到损害。为了验证这种漏洞,我们提出了一种名为VisualTrap的方法,该方法可以通过误导智能体将文本计划定位到触发位置而不是预期的目标来劫持定位。VisualTrap使用注入恶意数据的常用方法进行攻击,并在视觉定位的预训练期间这样做,以确保攻击的实际可行性。实验结果表明,VisualTrap可以有效地劫持视觉定位,只需5%的恶意数据和高度隐蔽的视觉触发器(人眼不可见);并且该攻击可以推广到下游任务,即使在干净的微调之后也是如此。此外,注入的触发器可以在不同的GUI环境中保持有效,例如,在移动/Web上训练并推广到桌面环境。这些发现强调了迫切需要进一步研究GUI智能体中的后门攻击风险。

🔬 方法详解

问题定义:论文旨在解决GUI智能体中存在的后门攻击问题,特别是针对视觉定位环节的攻击。现有的GUI智能体依赖视觉定位将文本指令映射到GUI元素,这使得攻击者可以通过操纵视觉定位来控制智能体的行为。现有的防御方法通常无法有效应对这种隐蔽的攻击方式。

核心思路:论文的核心思路是通过在视觉定位的预训练阶段注入恶意数据,从而在智能体中植入后门。具体来说,攻击者会在训练数据中添加包含特定视觉触发器的样本,并将其对应的标签修改为攻击目标。这样,当智能体在推理阶段遇到包含该触发器的输入时,就会被诱导到攻击目标。

技术框架:VisualTrap的整体框架包括以下几个阶段:1) 数据准备:收集GUI智能体的训练数据,并选择一部分数据作为恶意数据。2) 触发器生成:生成隐蔽的视觉触发器,例如人眼难以察觉的细微图像扰动。3) 数据注入:将触发器添加到恶意数据中,并将对应的标签修改为攻击目标。4) 模型训练:使用包含恶意数据的数据集训练GUI智能体。5) 攻击评估:评估后门攻击的成功率和隐蔽性。

关键创新:VisualTrap的关键创新在于其针对视觉定位环节的后门攻击方法。与传统的后门攻击方法不同,VisualTrap不需要修改智能体的模型结构或训练过程,而是通过操纵训练数据来实现攻击。此外,VisualTrap还提出了一种生成隐蔽视觉触发器的方法,使得攻击更难被检测到。

关键设计:VisualTrap的关键设计包括:1) 恶意数据比例:实验中使用了5%的恶意数据比例,以保证攻击的隐蔽性。2) 触发器生成方法:使用了人眼难以察觉的细微图像扰动作为触发器。3) 攻击目标选择:选择了与原始标签不同的GUI元素作为攻击目标。4) 损失函数:使用了标准的交叉熵损失函数进行模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VisualTrap仅需5%的恶意数据即可有效劫持视觉定位,且攻击具有高度隐蔽性,人眼难以察觉。攻击可以泛化到下游任务,即使在干净的微调之后仍然有效。此外,注入的触发器可以在不同的GUI环境中保持有效,例如,在移动/Web上训练并推广到桌面环境。这些结果表明,VisualTrap是一种有效的后门攻击方法,对GUI智能体的安全性构成了严重威胁。

🎯 应用场景

该研究揭示了GUI智能体面临的严重安全威胁,强调了开发更安全的GUI智能体的重要性。研究成果可应用于开发针对后门攻击的防御机制,例如,通过检测和过滤恶意数据来防止后门植入。此外,该研究还可以促进对其他类型GUI智能体安全问题的研究,例如对抗性攻击和隐私泄露。

📄 摘要(原文)

Graphical User Interface (GUI) agents powered by Large Vision-Language Models (LVLMs) have emerged as a revolutionary approach to automating human-machine interactions, capable of autonomously operating personal devices (e.g., mobile phones) or applications within the device to perform complex real-world tasks in a human-like manner. However, their close integration with personal devices raises significant security concerns, with many threats, including backdoor attacks, remaining largely unexplored. This work reveals that the visual grounding of GUI agent-mapping textual plans to GUI elements-can introduce vulnerabilities, enabling new types of backdoor attacks. With backdoor attack targeting visual grounding, the agent's behavior can be compromised even when given correct task-solving plans. To validate this vulnerability, we propose VisualTrap, a method that can hijack the grounding by misleading the agent to locate textual plans to trigger locations instead of the intended targets. VisualTrap uses the common method of injecting poisoned data for attacks, and does so during the pre-training of visual grounding to ensure practical feasibility of attacking. Empirical results show that VisualTrap can effectively hijack visual grounding with as little as 5% poisoned data and highly stealthy visual triggers (invisible to the human eye); and the attack can be generalized to downstream tasks, even after clean fine-tuning. Moreover, the injected trigger can remain effective across different GUI environments, e.g., being trained on mobile/web and generalizing to desktop environments. These findings underscore the urgent need for further research on backdoor attack risks in GUI agents.