Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents

📄 arXiv: 2505.14418v2 📥 PDF

作者: Pengzhou Cheng, Haowen Hu, Zheng Wu, Zongru Wu, Tianjie Ju, Zhuosheng Zhang, Gongshen Liu

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-05-23)

备注: 25 pages, 10 figures, 12 Tables


💡 一句话要点

AgentGhost:揭示多模态大语言模型驱动的移动GUI代理中的后门漏洞

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 GUI代理 后门攻击 供应链安全 红队测试

📋 核心要点

  1. 现有的多模态大语言模型驱动的GUI代理存在供应链后门攻击的风险,用户依赖第三方模型可能导致安全问题。
  2. AgentGhost框架通过构建复合触发器和优化后门注入过程,实现了对MLLM驱动的GUI代理的有效且隐蔽的后门攻击。
  3. 实验证明AgentGhost在保持任务效用的前提下,能够以高准确率植入后门,并提出了一种防御方法来降低攻击成功率。

📝 摘要(中文)

多模态大语言模型(MLLM)驱动的图形用户界面(GUI)代理在人机交互方面展现出巨大潜力。然而,由于高昂的微调成本,用户通常依赖开源GUI代理或AI提供商提供的API,这引入了一个关键但未被充分探索的供应链威胁:后门攻击。本文首先揭示了MLLM驱动的GUI代理自然地暴露了多个交互级别的触发器,例如历史步骤、环境状态和任务进度。基于此,我们提出了AgentGhost,一个有效且隐蔽的红队后门攻击框架。具体而言,我们首先构建复合触发器,结合目标和交互级别,使GUI代理在确保任务效用的同时无意中激活后门。然后,我们将后门注入形式化为一个Min-Max优化问题,该问题使用监督对比学习来最大化表示空间中样本类之间的特征差异,从而提高后门的灵活性。同时,它采用监督微调来最小化后门行为和干净行为生成之间的差异,从而提高有效性和效用。在两个已建立的移动基准测试中对各种代理模型进行的大量评估表明,AgentGhost是有效且通用的,在三个攻击目标上的攻击准确率达到99.7%,并且通过仅1%的效用降低来显示隐蔽性。此外,我们定制了一种针对AgentGhost的防御方法,将攻击准确率降低至22.1%。我们的代码可在匿名处获得。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)驱动的GUI代理中存在的后门攻击漏洞问题。现有方法缺乏对这种新型攻击的有效检测和防御机制,用户依赖的第三方模型可能被恶意植入后门,从而导致安全风险。

核心思路:论文的核心思路是利用MLLM驱动的GUI代理在交互过程中暴露的多个交互级别触发器(如历史步骤、环境状态、任务进度)来构建复合触发器,从而在保证任务效用的前提下,隐蔽地激活后门。通过优化后门注入过程,提高后门的灵活性和有效性。

技术框架:AgentGhost框架主要包含两个阶段:后门注入和后门触发。后门注入阶段,首先构建复合触发器,结合目标和交互级别的信息。然后,将后门注入形式化为一个Min-Max优化问题,使用监督对比学习最大化不同类别样本的特征差异,并使用监督微调最小化后门行为和干净行为之间的差异。后门触发阶段,当满足预设的复合触发条件时,后门将被激活,执行恶意行为。

关键创新:论文的关键创新在于:1) 揭示了MLLM驱动的GUI代理中存在的交互级别触发器,并利用这些触发器构建复合触发器,提高了后门的隐蔽性。2) 将后门注入形式化为一个Min-Max优化问题,并使用监督对比学习和监督微调来优化后门,提高了后门的灵活性和有效性。

关键设计:在后门注入阶段,论文采用了监督对比学习损失函数来最大化不同类别样本的特征差异,并采用了交叉熵损失函数来最小化后门行为和干净行为之间的差异。Min-Max优化问题的目标是最大化攻击准确率,同时最小化对任务效用的影响。复合触发器的设计需要仔细选择目标级别和交互级别的触发条件,以保证后门的隐蔽性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AgentGhost框架在两个移动基准测试中对各种代理模型都有效,攻击准确率达到99.7%,且仅造成1%的效用降低,具有良好的隐蔽性。此外,论文提出的防御方法能够将攻击准确率降低至22.1%,表明该方法具有一定的防御效果。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型驱动的GUI代理的安全性,例如移动应用自动化测试、智能助手等领域。通过对潜在的后门攻击进行检测和防御,可以保护用户隐私和数据安全,提高用户对AI代理的信任度。未来,该研究可以扩展到其他类型的AI代理,例如机器人和对话系统。

📄 摘要(原文)

Graphical user interface (GUI) agents powered by multimodal large language models (MLLMs) have shown greater promise for human-interaction. However, due to the high fine-tuning cost, users often rely on open-source GUI agents or APIs offered by AI providers, which introduces a critical but underexplored supply chain threat: backdoor attacks. In this work, we first unveil that MLLM-powered GUI agents naturally expose multiple interaction-level triggers, such as historical steps, environment states, and task progress. Based on this observation, we introduce AgentGhost, an effective and stealthy framework for red-teaming backdoor attacks. Specifically, we first construct composite triggers by combining goal and interaction levels, allowing GUI agents to unintentionally activate backdoors while ensuring task utility. Then, we formulate backdoor injection as a Min-Max optimization problem that uses supervised contrastive learning to maximize the feature difference across sample classes at the representation space, improving flexibility of the backdoor. Meanwhile, it adopts supervised fine-tuning to minimize the discrepancy between backdoor and clean behavior generation, enhancing effectiveness and utility. Extensive evaluations of various agent models in two established mobile benchmarks show that AgentGhost is effective and generic, with attack accuracy that reaches 99.7\% on three attack objectives, and shows stealthiness with only 1\% utility degradation. Furthermore, we tailor a defense method against AgentGhost that reduces the attack accuracy to 22.1\%. Our code is available at \texttt{anonymous}.