MIP against Agent: Malicious Image Patches Hijacking Multimodal OS Agents

📄 arXiv: 2503.10809v2 📥 PDF

作者: Lukas Aichberger, Alasdair Paren, Guohao Li, Philip Torr, Yarin Gal, Adel Bibi

分类: cs.CR, cs.LG

发布日期: 2025-03-13 (更新: 2025-11-04)

备注: NeurIPS 2025


💡 一句话要点

提出恶意图像补丁(MIP)攻击,劫持多模态操作系统代理。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 操作系统代理 视觉-语言模型 对抗攻击 恶意图像补丁 安全漏洞

📋 核心要点

  1. 操作系统代理通过视觉-语言模型直接控制用户计算机,但缺乏对恶意输入的有效防御。
  2. 论文提出恶意图像补丁(MIP)攻击,通过对抗性扰动屏幕区域,诱导操作系统代理执行恶意操作。
  3. 实验证明MIP具有良好的泛化能力,能够在不同场景下劫持多个操作系统代理,造成数据泄露等危害。

📝 摘要(中文)

本文揭示了一种针对操作系统代理的新型攻击向量:恶意图像补丁(MIP)。MIP是对屏幕特定区域进行对抗性扰动,当操作系统代理捕获这些区域时,会诱导其通过特定的API执行有害操作。例如,MIP可以嵌入到桌面壁纸或社交媒体上,导致操作系统代理泄露敏感的用户数据。研究表明,MIP可以泛化到不同的用户提示和屏幕配置,并且即使在执行良性指令期间也能劫持多个操作系统代理。这些发现暴露了操作系统代理中存在的严重安全漏洞,需要在广泛部署之前认真解决。

🔬 方法详解

问题定义:现有的操作系统代理(OS Agent)依赖视觉-语言模型(VLM)解析屏幕截图并执行操作,但容易受到恶意输入的影响。攻击者可以通过操纵屏幕上的图像内容,诱导OS Agent执行非预期的、甚至有害的操作,例如数据泄露。现有方法缺乏对此类攻击的有效防御机制。

核心思路:论文的核心思路是设计一种对抗性的图像补丁(MIP),该补丁在视觉上不明显,但能够欺骗OS Agent的视觉感知模块,使其产生错误的理解,从而执行攻击者预期的恶意操作。这种攻击利用了OS Agent对屏幕内容的信任,以及VLM对对抗性扰动的脆弱性。

技术框架:该攻击框架主要包含以下几个步骤:1)确定目标OS Agent和其使用的API;2)选择一个屏幕区域作为MIP的嵌入位置;3)使用对抗攻击算法生成MIP,使其能够诱导OS Agent执行特定的恶意操作(例如,点击某个按钮或输入特定文本);4)将MIP嵌入到屏幕上,并诱导用户启动OS Agent;5)OS Agent捕获包含MIP的屏幕截图,并执行被MIP诱导的恶意操作。

关键创新:该论文的关键创新在于提出了MIP攻击的概念,并证明了其对OS Agent的有效性。与传统的对抗攻击不同,MIP攻击直接作用于OS Agent的输入(屏幕截图),而不需要访问模型的内部参数。此外,MIP攻击具有良好的泛化能力,可以跨不同的用户提示和屏幕配置生效。

关键设计:MIP的生成通常依赖于对抗攻击算法,例如FGSM(Fast Gradient Sign Method)或PGD(Projected Gradient Descent)。攻击目标是最大化OS Agent执行恶意操作的概率,或者最小化其执行正确操作的概率。损失函数的设计需要根据具体的攻击目标和OS Agent的行为进行调整。此外,MIP的大小和位置也需要仔细选择,以保证其在视觉上不明显,同时能够有效地影响OS Agent的决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MIP能够成功劫持多个操作系统代理,使其执行包括数据泄露在内的恶意操作。MIP具有良好的泛化能力,能够在不同的用户提示和屏幕配置下生效。即使在执行良性指令期间,MIP也能成功劫持OS Agent。这些结果表明,现有的操作系统代理对MIP攻击非常脆弱,需要采取有效的防御措施。

🎯 应用场景

该研究揭示了操作系统代理在安全性方面面临的潜在风险,强调了在广泛部署此类系统之前,必须认真解决这些安全漏洞。研究成果可用于开发更鲁棒的操作系统代理,例如通过对抗训练或输入过滤等方法来提高其对恶意输入的抵抗能力。此外,该研究也为评估和改进其他基于视觉-语言模型的智能系统的安全性提供了借鉴。

📄 摘要(原文)

Recent advances in operating system (OS) agents have enabled vision-language models (VLMs) to directly control a user's computer. Unlike conventional VLMs that passively output text, OS agents autonomously perform computer-based tasks in response to a single user prompt. OS agents do so by capturing, parsing, and analysing screenshots and executing low-level actions via application programming interfaces (APIs), such as mouse clicks and keyboard inputs. This direct interaction with the OS significantly raises the stakes, as failures or manipulations can have immediate and tangible consequences. In this work, we uncover a novel attack vector against these OS agents: Malicious Image Patches (MIPs), adversarially perturbed screen regions that, when captured by an OS agent, induce it to perform harmful actions by exploiting specific APIs. For instance, a MIP can be embedded in a desktop wallpaper or shared on social media to cause an OS agent to exfiltrate sensitive user data. We show that MIPs generalise across user prompts and screen configurations, and that they can hijack multiple OS agents even during the execution of benign instructions. These findings expose critical security vulnerabilities in OS agents that have to be carefully addressed before their widespread deployment.